scrapy
遨游的菜鸡
这个作者很懒,什么都没留下…
展开
-
scrapy爬虫框架 (5. 避免被封措施)
文章目录1. 措施2.Scrapy Middleware用法简介(下面几个操作都需要用到这个文件)2.1 文件位置2.2 简介转自:https://www.cnblogs.com/onefine/p/10499320.html3.随机延时爬取方式一:这个项目下的所有爬虫延时(已尝试)方式二:单独spider延时(未尝试)1.首先了解scrapy项目中settings参数的使用详解里的custom_...原创 2020-04-03 02:06:08 · 2187 阅读 · 0 评论 -
scrapy爬虫框架 (4. item的介绍和使用)
1.item介绍在items.py的函数里定义好我们预先需要的字段,并且引用此py文件的函数后,只能使用定义好的字段2.item使用2.1在items.py文件里定义预先使用的字段items.py可以有多个函数,每个函数定义不同爬虫的预先使用字段,而在pipelines处理数据时得判断是哪个函数下的字段.2.2在爬虫文件里引用该类,注意爬虫文件里出现的字段只能是该类定义过的先爬取传智...原创 2020-01-28 21:24:18 · 350 阅读 · 0 评论 -
scrapy爬虫框架 (3. xpath、/text()、extract()与extract_first()学习)
文章目录1.xpath简介2.xpath节点3.xpath语法3.1 选取节点3.1.1 常例3.1.2 通配3.1.3 选取多条路径3.2 谓语1.xpath简介XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历,用来确定XML文档中某部分位置。2.xpath节点节点关系2.1 父(Parent)每个元素以及属性都有一个父。...原创 2020-01-26 18:09:05 · 1697 阅读 · 0 评论 -
scrapy爬虫框架 (2. logging模块的使用、yield scrapy.Request()函数间传参)
1.logging模块的使用1.1scrapy项目中的使用1.settings.py中设置LOG_LEVEL=“WARNING”2.settings.py中设置LOG_FILE="./log.log" #这是日志保存的位置,设置后终端就不会显示日志内容3.程序里进行日志输出:import logginglogger=logging.getLogger(__name__) #实例化l...原创 2020-01-19 19:37:23 · 1110 阅读 · 0 评论 -
scrapy爬虫框架 (1. Scrapy的基本介绍、使用流程、分组打印、pipelines(管道)使用)、分页爬取
1.scrapy介绍scrapy是一个为更快爬取网站数据、提取结构性数据而编写的爬虫框架。并且scrapy使用了Twisted异步网络框架,使下载速度更快。request是模块,模块只能帮助我们发送请求。scrapy是框架,框架可以帮助我们解决各种需求,其中可能每一个都是模块,框架包含模块。1.创建项目通过cmd进入项目存放的文件夹下,然后输入scrapy startproject [...原创 2020-01-18 23:50:21 · 1182 阅读 · 0 评论