- 博客(2)
- 收藏
- 关注
原创 2020-10-26:scrapy嵌入selenium
scrapy嵌入selenium 需要解决的问题,可能存在动态渲染的网页,但不希望全部使用selenium;每次对动态网站的抓取能够更换ip代理和请求头;有关selenium页面加载太慢问题。
2020-10-26 21:23:32
208
原创 scrapy爬取GitHub爬虫实战记录
scrapy爬虫实战记录(从实现到打包.exe) 项目爬虫过程记录。 开始修改配置参数 1、修改settings.py文件 settings文件是scrapy的主要配置文件,修改项: 1、ROBOTSTXT_OBEY = False:ROBOTSTXT是网站上的爬虫协议,即在ROBOTS.txt文件中的网站数据不允许爬取,在此我们直接不遵守协议。 2、CONCURRENT_REQUESTS = 1:同时发起的请求数量,影响到爬虫的速度,爬取速度越快(也受其它很多参数影响),所需IP代理池越大,不然容易导致I
2020-10-19 15:40:56
1317
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人