
scrapy
文章平均质量分 90
zhaojiafu666
保持好奇心,开始养成记录学习笔记的习惯吧,加油!!!
【我坚信】:学习中遇到问题时,要习惯于多思考,根据已经掌握的知识举一反三;搞不懂的,可以使用Google搜索引擎,大部分常见的问题都会有答案;遇到问题不论大小马上就去请教“高手”不是明智之举,自己研究出来的答案远比你从“高手”那里得到的现成答案要记忆深刻,也更有利于你今后的学习。希望自己成为高手的人,从不会放弃自己独立思考问题的机会。
展开
-
python爬虫之scrapy 框架学习复习整理四--验证发送请求时携带cookies的4种有效性方法
文章目录说明:一、使用requests模块初步验证cookies的有效性:1、先分析页面结构:①、登录状态②、未登录状态③、对比结论:2、接下来我们使用requests模块测试cookies的有效性:①、测试代码:②、未登录状态③、登录状态④、结论二、使用scrapy测试携带cookie的方法1、命令生成项目和初始化爬虫:2、修改setting3、初步更改爬虫程序4、运行测试:5、start_ur...原创 2019-10-10 14:35:57 · 997 阅读 · 0 评论 -
python爬虫之scrapy 框架学习复习整理三--CrawlSpider(自动提取翻页)
文章目录说明:再建立一个爬虫程序:说明:这次是接着上一次的爬虫:python爬虫之scrapy 框架学习复习整理二进行补充,上一次是自己对响应的页面,进行分析,查找出下一页的地址,使用requests发送请求,解析方法还是parse函数。这次使用自动从响应页面提取出需要爬取的地址,然后接着再次爬取,直至,提取的地址都爬取完毕。再建立一个爬虫程序: scrapy genspide -t ...原创 2019-10-09 19:06:33 · 892 阅读 · 0 评论 -
python爬虫之scrapy 框架学习复习整理二--scrapy.Request(自己提取url再发送请求)
文章目录说明:我的配置:目标网站:今天爬虫1、创建项目+初始化爬虫文件:2、在setting中配置3、修改items.py:4、修改爬虫程序:spiders/scrapyd.py①、scrapy.Request()②、直接上我的代码:5、管道处理(一般都在这里进行数据清洗和数据储存操作):pipelines.py1、测试spider是什么:2、保存到MongoDB数据库:说明:今天主要学习一下...原创 2019-10-09 14:16:38 · 8461 阅读 · 0 评论 -
python爬虫之scrapy 框架学习复习整理一--最基本入门的知识点
文章目录说明:我的工作环境:学习目标几个全局命令:1、创建一个scrapy项目2、明确目标(mySpider/items.py)3、制作爬虫 (spiders/baidu.py)1、制作爬虫文件默认格式2、修改parse()方法3、使用xpath提取数据:4、管道保存数据(pipelines.py)注意点:yield返回的只能是dict或者None,5、保存到MongoDB数据库:注意点:说明:...原创 2019-10-09 08:11:14 · 943 阅读 · 0 评论 -
Windows下安装和使用scrapy-redis
文章目录1、Windows下安装Redis服务2、Windows下scrapy-redis的安装与配置2.1、安装:2.2、setting配置:3、scrapy-redis三个模板一、CrawlSpider的继承与设置:二、CrawlSpider的继承与设置:三、RedisCrawlSpider的继承与设置:1、Windows下安装Redis服务下载Windows的安装包地址:https:/...原创 2019-07-19 10:47:01 · 1360 阅读 · 0 评论 -
scrapy 爬虫之添加代理IP俩种方式
方式一:一.重写start_request方法 def start_requests(self):中写入 yield scrapy.Request(url=url, meta={'proxy': 'http://117.90.2.212:9000'}, callback=self.parse)方式二二、在中间件中加入代理IP,在把中间的类名加入setting中。1.在middlewa...原创 2019-01-18 16:07:51 · 1367 阅读 · 3 评论 -
scrapy-redis爬虫异常
爬虫报错redis.exceptions.ResponseError: WRONGTYPE Operation against a key holding the wrong kind of value这是报错内容,后来通过上网查询,原来是插入的key的类型错误,默认是string,改成list就好了,这是scrapy-redis内部规定是list类型。后面就能正常跑了。...原创 2019-01-18 13:25:18 · 832 阅读 · 0 评论