爬虫
雨天雨天氵
这是一条脏数据
展开
-
2020-10-26:scrapy嵌入selenium
scrapy嵌入selenium 需要解决的问题,可能存在动态渲染的网页,但不希望全部使用selenium;每次对动态网站的抓取能够更换ip代理和请求头;有关selenium页面加载太慢问题。原创 2020-10-26 21:23:32 · 218 阅读 · 0 评论 -
scrapy爬取GitHub爬虫实战记录
scrapy爬虫实战记录(从实现到打包.exe) 项目爬虫过程记录。 开始修改配置参数 1、修改settings.py文件 settings文件是scrapy的主要配置文件,修改项: 1、ROBOTSTXT_OBEY = False:ROBOTSTXT是网站上的爬虫协议,即在ROBOTS.txt文件中的网站数据不允许爬取,在此我们直接不遵守协议。 2、CONCURRENT_REQUESTS = 1:同时发起的请求数量,影响到爬虫的速度,爬取速度越快(也受其它很多参数影响),所需IP代理池越大,不然容易导致I原创 2020-10-19 15:40:56 · 1363 阅读 · 0 评论