scrapy splash在ubuntu环境下的简单使用

最新推荐文章于 2023-06-25 10:04:48 发布

honkerDream

最新推荐文章于 2023-06-25 10:04:48 发布

阅读量774

点赞数

分类专栏：笔记文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/qq_44042040/article/details/121594050

版权

笔记专栏收录该内容

4 篇文章 0 订阅

订阅专栏

标题## scrapy splash在ubuntu环境下的简单使用:

做爬虫的朋友经常会遇到一些动态加载的网站，比较常见的做法是使用selenium调用一个浏览器来加载，但是这种方法感觉大材小用，比较浪费资源，且效率低。这个时候我们可以使用Splash。Splash可以执行用Lua 编程语言编写的自定义渲染脚本。这允许我们使用Splash作为类似于PhantomJS的浏览器自动化工具

使用docker拉取镜像:如果你还没有安装docker 请先安装docker，安装好docker后直接拉取镜像就可以了
获取splash镜像：sudo docker pull scrapinghub/splash
运行：
(1). sudo docker run -p 8050:8050 scrapinghub/splash 前台运行splash服务器
（2）sudo docker run -d -p 8050:8050 scrapinghub/splash 后台运行plash服务器
运行成功后在浏览器中打开 http://127.0.0.1:8050/ 可以看到
安装scrapy-splash： pip3 install scrapy-splash
scrapy使用：
7.# 1 导包
from scrapy_splash import SplashRequest
8.# # 2 重写start_requests方法def start_requests(self):
9.设置配置文件
#====================使用scrapy-splash 需要的额外配置

渲染服务的url

SPLASH_URL = ‘http://127.0.0.1:8050’

#下载器中间件
DOWNLOADER_MIDDLEWARES = {
‘scrapy_splash.SplashCookiesMiddleware’: 300,
‘scrapy_splash.SplashMiddleware’: 301,
‘scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware’: 302,
}

去重过滤器*

DUPEFILTER_CLASS = ‘scrapy_splash.SplashAwareDupeFilter’

使用Splash的Http缓存

HTTPCACHE_STORAGE = ‘scrapy_splash.SplashAwareFSCacheStorage’

honkerDream

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
scrapy splash在ubuntu环境下的简单使用

scrapy splash在ubuntu环境下的简单使用:做爬虫的朋友经常会遇到一些动态加载的网站，比较常见的做法是使用selenium调用一个浏览器来加载，但是这种方法感觉大材小用，比较浪费资源，且效率低。这个时候我们可以使用Splash。Splash可以执行用Lua 编程语言编写的自定义渲染脚本。这允许我们使用Splash作为类似于PhantomJS的浏览器自动化工具使用docker拉取镜像:如果你还没有安装docker 请先安装docker，安装好docker后直接拉取镜像就可以了获取sp
复制链接

扫一扫