![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Scrapy
7voyage
这个作者很懒,什么都没留下…
展开
-
初窥Scrapy,Scrapy今天算是正式入门了
Scrapy入门过程中遇到的难点:scrapy.Request(url)不执行,或者没反应,extract()和extract_first(),parse()里用yield将当前值给piplines,然后继续执行运行,scrapy爬虫数据保存到表格中(保存为.csv)解决间隔空行的问题,保存后的csv编码问题原创 2018-09-26 11:12:28 · 358 阅读 · 0 评论 -
Scrapy中间件应用
Scrapy中间件应用代理ip中间件这里使用的代理ip是阿布云:https://www.abuyun.com/ 绝无打广告,也没给我钱,纯粹用户体验,而且注册之后可以申请试用,试用时间可以向管理多次索要。编写自己的代理ip中间件middlewares.py,在账号密码加密时,Python2和Python3写法大不同,如果出现错误scheme b''可以查看在代理ip前是否添加协议http,...原创 2018-10-18 17:25:59 · 600 阅读 · 0 评论 -
Scrapy官推入门网站:Quotes to Scrape
Scrapy爬取网站:Quotes to Scrape写在前面这是一个scrapy官方提供的网站:http://quotes.toscrape.com/ ,网页很简单,麻雀虽小五脏俱全。就用这个网站详细演示下Scrapy基础使用方法。能力有限,水平一般,尽力做好哈。创建Scrapy项目创建项目:scrapy startproject quotes创建spider:这里出现报错,...原创 2018-10-17 19:14:40 · 3427 阅读 · 0 评论 -
Scrapy爬取前程无忧(51job)相关职位信息
Scrapy爬取前程无忧(51job)python职位信息开始是想做数据分析的,上网上找教程,看到相关博客我就跟着做,但是没数据就只能开始自己爬呗。顺便给51job的工作人员提提建议,我爬的时候Scrapy访问量开到128,relay仅有两秒,还以为会封ip。没想到只是改请求头就能万事大吉。。。这基本算是没有反扒机制吧。而且后面数据清洗的时候发现很多虚假的招聘广告,这个应该官方可以控制下吧。灵...原创 2018-12-13 21:57:03 · 2396 阅读 · 0 评论