运用scrapy框架通过splash无头浏览器爬取之settings文件配置

参考博客:https://blog.csdn.net/zhusongziye/article/details/80378205

1. 修改settings.py,配置SPLASH_URL。在这里我们的Splash是在本地运行的,所以可以直接配置本地的地址:
SPLASH_URL = 'http://localhost:8050'
如果Splash是在远程服务器运行的,那此处就应该配置为远程的地址。例如运行在IP为120.27.34.25的服务器上,则此处应该配置为:
SPLASH_URL = 'http://120.27.34.25:8050'
2. 还需要配置几个Middleware,代码如下所示:
DOWNLOADER_MIDDLEWARES = {
   'scrapy_splash.SplashCookiesMiddleware': 723,
   'scrapy_splash.SplashMiddleware': 725,
   'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
SPIDER_MIDDLEWARES = {
   'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

这里配置了三个Downloader Middleware和一个Spider Middleware,这是Scrapy-Splash的核心部分。我们不再需要像对接Selenium那样实现一个Downloader Middleware,Scrapy-Splash库都为我们准备好了,直接配置即可。

3. 还需要配置一个去重的类DUPEFILTER_CLASS,代码如下所示:
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
4. 最后配置一个Cache存储HTTPCACHE_STORAGE,代码如下所示:
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值