Scrapy利用Splash抓取动态页面

最新推荐文章于 2025-04-26 20:00:00 发布

三丁目の夕阳下的白菜

最新推荐文章于 2025-04-26 20:00:00 发布

阅读量3.8k

点赞数

文章标签： scrapy python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/keenshinsword/article/details/79125743

版权

本文介绍如何利用Scrapy与Splash抓取动态页面。动态网页通常需要JavaScript渲染，而Splash作为Scrapy官方推荐的渲染引擎，通过HTTP API提供JavaScript渲染服务，包括返回渲染后的HTML、执行自定义JavaScript等。文章将展示如何设置和使用Splash，包括启动Docker运行Splash服务、安装scrapy-splash以及在Scrapy项目中的配置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

之前的例子，我爬取的都是些静态页面中的信息，爬取容易。但是目前大多数网站都是动态的，动态页面中的部分内容是浏览器运行页面中的JavaScript脚本动态生成的，爬取相对困难。

动态网页一般两种思路，一是找到api接口伪装请求直接请求数据，另一种是没有办法模拟的时候需要渲染环境。

这里我使用了第二种方法

Splash是Scrapy官方推荐的JavaScript渲染引擎，它是使用Webkit开发的轻量级无界面浏览器，提供基于HTTP接口的JavaScript渲染服务，支持以下功能：

为用户返回经过渲染的HTML页面或页面截图
并发渲染多个页面
关闭图片加载，加速渲染
在页面中执行用户自定义的JavaScript代码
执行用户自定义的渲染脚本（lua），功能类似于PhantomJS

如何使用Splash:

splash使用的是Splash HTTP API，所以需要一个Splash Instance,一般采用docker运行splash，所以需要安装docker
```
sudo apt-get install docker
```
拉取镜像
```
sudo docker pull scrapinghub/splash
```

在本机的8050和8051端口开启Splash服务

docker run -p 8050:8050 -p 8051:8051 scrapinghub/splash

安装scrapy-splash
```
pip in
```

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。