scrapy-splash+docker

最新推荐文章于 2022-02-08 23:57:37 发布

id_12893834

最新推荐文章于 2022-02-08 23:57:37 发布

阅读量128

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_40784853/article/details/115912295

版权

pip install scrapy-splash
安装docker, 安装好后运行docker
拉取镜像 docker pull scrapinghub/splash
用docker运行docker run -p 5023:5023 -p 8050:8050 -p 8051:8051 scrapinghub/splash
scrapy-setting 配置
SPLASH_URL = ‘http://localhost:8050’
DOWNLOADER_MIDDLEWARES = { ‘scrapy_splash.SplashCookiesMiddleware’: 723, ‘scrapy_splash.SplashMiddleware’: 725, ‘scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware’: 810, }
SPIDER_MIDDLEWARES = { ‘scrapy_splash.SplashDeduplicateArgsMiddleware’: 100, }
去重过滤器
DUPEFILTER_CLASS = ‘scrapy_splash.SplashAwareDupeFilter’
HTTPCACHE_STORAGE = ‘scrapy_splash.SplashAwareFSCacheStorage’
spider配置
class ZhCambridgeSpider(scrapy.Spider):
name = ‘zh_Cambridge’
custom_settings = {
‘HTTPERROR_ALLOWED_CODES’: [503],
‘DOWNLOAD_TIMEOUT’: 40,
‘RETRY_TIMES’: 3
}

script = ‘’’
splash:go(args.url) #要解析的url
splash:wait(20) #等待时间
return {
html = splash:html()
}
‘’’
spiders
def start_requests(self):
yield SplashRequest(url=‘https://www.cambridge.org/core/what-we-publish/journals’,
endpoint=‘run’,
args={‘lua_source’: self.script}, callback=self.journal)

def journal(self, response):
print(response.text)

splash官网 https://splash.readthedocs.io/en/stable/

id_12893834

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy-splash+docker

pip install scrapy-splash安装docker, 安装好后运行docker拉取镜像 docker pull scrapinghub/splash用docker运行docker run -p 5023:5023 -p 8050:8050 -p 8051:8051 scrapinghub/splashscrapy-setting 配置SPLASH_URL = ‘http://localhost:8050’DOWNLOADER_MIDDLEWARES = { ‘scrapy_spl
复制链接

扫一扫