我使用scrapy-splash来爬行网页,并在docker上运行splash服务。
命令是:
docker run -p 8050:8050 scrapinghub/splash --max-timeout 3600
但是设置并没有生效。
解决方法是:
yield scrapy_splash.SplashRequest(
url, self.parse, endpoint='execute',
args={'lua_source': script, 'timeout': 3600})