爬虫

最新推荐文章于 2024-07-12 16:42:46 发布

uchjum

最新推荐文章于 2024-07-12 16:42:46 发布

阅读量243

点赞数

分类专栏： python 文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/uchjum/article/details/52489816

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

scrapy创建项目

在文件夹里按下shift鼠标右击打开命令行，执行：
scrapy startproject projectname
cd projectname
scrapy genspider name http://www.lagou.com/zhaopin/

创建运行主程序 main

from scrapy import cmdline
cmdline.execute("scrapy crawl dbbook".split())

代理

爬虫被屏蔽，要加一个请求头部，模拟浏览器登录

在settings.py里加入如下内容就可以模拟浏览器了

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0'

中文处理

本想着将爬取到的中文数据处理成数字的形式用向量来表达，但无奈试了一些方法始终不支持中文的匹配，于是乎就想出了，这么个不是方法的方法最少可以解决目前所需^_^，这也是极好的，以后再用其他方法吧。
这里写图片描述
接着上次的说，中文的问题终于解决了，原来是

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫

scrapy创建项目
复制链接

扫一扫

专栏目录

uchjum CSDN认证博客专家 CSDN认证企业博客

码龄8年

4: 原创

161万+: 周排名

107万+: 总排名

1634: 访问

: 等级

56: 积分

2: 粉丝

0: 获赞

2: 评论

0: 收藏

私信

关注

热门文章

分类专栏

最新评论

fastext
uchjum 回复伊坂幸太懒: https://github.com/salestock/fastText.py 我也是刚学，建议你参考一下这里面的例子，里面的数据集它都提供下载，我用他们的例子测试成功，至于其他的还没试验过^_^
fastext
伊坂幸太懒: 你好，我最近也在学习fastText，用linux，然而我使用它运行text测试文本时却显示 P@1: -nan R@1: -nan Number of examples: 0 请问这应该是什么原因？是我文本的格式不对吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。