自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 2020-10-26:scrapy嵌入selenium

scrapy嵌入selenium 需要解决的问题,可能存在动态渲染的网页,但不希望全部使用selenium;每次对动态网站的抓取能够更换ip代理和请求头;有关selenium页面加载太慢问题。

2020-10-26 21:23:32 208

原创 scrapy爬取GitHub爬虫实战记录

scrapy爬虫实战记录(从实现到打包.exe) 项目爬虫过程记录。 开始修改配置参数 1、修改settings.py文件 settings文件是scrapy的主要配置文件,修改项: 1、ROBOTSTXT_OBEY = False:ROBOTSTXT是网站上的爬虫协议,即在ROBOTS.txt文件中的网站数据不允许爬取,在此我们直接不遵守协议。 2、CONCURRENT_REQUESTS = 1:同时发起的请求数量,影响到爬虫的速度,爬取速度越快(也受其它很多参数影响),所需IP代理池越大,不然容易导致I

2020-10-19 15:40:56 1317

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除