雨天雨天氵-CSDN博客

原创 2020-10-26：scrapy嵌入selenium

scrapy嵌入selenium 需要解决的问题，可能存在动态渲染的网页，但不希望全部使用selenium；每次对动态网站的抓取能够更换ip代理和请求头；有关selenium页面加载太慢问题。

2020-10-26 21:23:32 208

原创 scrapy爬取GitHub爬虫实战记录

scrapy爬虫实战记录（从实现到打包.exe）项目爬虫过程记录。开始修改配置参数 1、修改settings.py文件 settings文件是scrapy的主要配置文件，修改项： 1、ROBOTSTXT_OBEY = False：ROBOTSTXT是网站上的爬虫协议，即在ROBOTS.txt文件中的网站数据不允许爬取，在此我们直接不遵守协议。 2、CONCURRENT_REQUESTS = 1：同时发起的请求数量，影响到爬虫的速度，爬取速度越快（也受其它很多参数影响），所需IP代理池越大，不然容易导致I

2020-10-19 15:40:56 1317

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人