Scrapy-Splash：Python解决JavaScript渲染网页爬虫的有效途径-CSDN博客

本文链接：https://blog.csdn.net/2501_91652317/article/details/147463546

在现代网页开发中，JavaScript被广泛用于实现动态内容加载、交互式页面效果等功能。许多网站通过JavaScript生成关键数据，普通的Scrapy爬虫仅能获取初始HTML代码，无法处理这类动态渲染的内容。Scrapy-Splash的出现为解决这一难题提供了有效方案，它将Scrapy框架与Splash服务相结合，能够渲染JavaScript页面并提取数据。本文将详细介绍Scrapy-Splash的原理、安装配置及实战应用，帮助开发者突破JavaScript渲染网页的抓取障碍。

一、理解Scrapy-Splash的作用与原理

（一）JavaScript渲染网页的挑战

当网页使用JavaScript动态加载数据时，页面初始HTML中可能只包含少量占位符或加载逻辑代码。传统爬虫在请求此类网页后，获取到的内容不包含动态生成的数据，导致数据抓取不完整。例如，电商网站的商品详情页通过JavaScript加载用户评论、商品规格动态信息；新闻网站使用JavaScript加载文章的完整内容或相关推荐信息，普通爬虫难以获取这些动态渲染的内容。

（二）Scrapy-Splash的工作原理

Splash是一个基于Lua脚本的JavaScript渲染服务，它可以驱动浏览器内核（如WebKit）执行网页中的JavaScript代码，生成完整渲染后的页面。Scrapy-Splash则是Scrapy框架与Splash服务的集成工具。在使用Scrapy-Splash时，Scrapy不再直接向目标网站发送请求，而是将请求发送给Splash服务；Splash服务接收到请求后，渲染页面并将完整的HTML内容返回给Scrapy；最后，Scrapy对返回的内容进行解析和数据提取。这种方式使得Scrapy能够处理复杂的JavaScript动态页面，实现数据的完整抓取。

二、Scrapy-Splash的安装与配置

（一）安装Splash服务

1. Docker安装（推荐）：Splash可以通过Docker快速安装部署。首先确保已安装Docker，然后在命令行中执行以下命令启动Splash容器：
docker run -p 8050:8050 scrapinghub/splash
上述命令将Splash服务运行在本地的8050端口，通过浏览器访问http://localhost:8050/，若能看到Splash的界面，则表示安装成功。
2. 非Docker安装：也可通过源码编译安装Splash，但过程相对复杂，需要安装Python、Twisted、Cairo等依赖库，具体步骤可参考Splash官方文档。

（二）安装Scrapy-Splash库

使用pip工具安装Scrapy-Splash库，在命令行中输入：
pip install scrapy-splash
（三）配置Scrapy项目

1. 修改settings.py文件：在Scrapy项目的settings.py文件中，添加或修改以下配置：
DOWNLOADER_MIDDLEWARES = {
'scrapy_splash.SplashCookiesMiddleware': 723,
'scrapy_splash.SplashMiddleware': 725,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
SPIDER_MIDDLEWARES = {
'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}
DUPEFILTER_CLASS ='scrapy_splash.SplashAwareDupeFilter'
HTTPCACHE_STORAGE ='scrapy_splash.SplashAwareFSCacheStorage'
SPLASH_URL = 'http://localhost:8050' # 根据Splash实际运行地址修改
上述配置启用了Scrapy-Splash相关的中间件，设置了去重类和缓存存储方式，并指定了Splash服务的地址。
2. 配置请求方式：在Scrapy爬虫中，不再使用scrapy.Request，而是使用scrapy_splash.SplashRequest发送请求，示例如下：
from scrapy_splash import SplashRequest

class MySpider(scrapy.Spider):
name = "my_spider"
start_urls = ["https://example.com"]

def start_requests(self):
for url in self.start_urls:
yield SplashRequest(url, self.parse, args={'wait': 3})
SplashRequest的args参数可以传递给Splash服务，如wait参数表示等待页面渲染的时间（单位为秒），确保JavaScript代码执行完成后再获取页面内容。

三、Scrapy-Splash实战：抓取动态渲染网页数据

（一）项目需求

以抓取某社交平台动态加载的帖子信息为例，该平台的帖子列表通过JavaScript动态加载，普通爬虫无法获取完整的帖子内容、发布时间和点赞数等信息，需要使用Scrapy-Splash实现数据抓取。

（二）编写爬虫代码

在spiders文件夹下创建爬虫文件，如social_spider.py，代码如下：
import scrapy
from scrapy_splash import SplashRequest
from my_project.items import PostItem

class SocialSpider(scrapy.Spider):
name = "social"
start_urls = ["https://www.example.social/feed"]

def start_requests(self):
for url in self.start_urls:
yield SplashRequest(url, self.parse, args={'wait': 5})

def parse(self, response):
post_list = response.css('.post-item')
for post in post_list:
item = PostItem()
item['title'] = post.css('.post-title::text').get()
item['content'] = post.css('.post-content::text').get()
item['publish_time'] = post.css('.post-time::text').get()
item['like_count'] = post.css('.post-like::text').re_first(r'\d+')
yield item

next_page = response.css('.next-page::attr(href)').get()
if next_page:
yield SplashRequest(next_page, self.parse, args={'wait': 3})
上述代码中，start_requests方法使用SplashRequest发送请求，设置等待时间为5秒，确保页面充分渲染。parse方法解析渲染后的页面，提取帖子信息，并处理分页逻辑，同样使用SplashRequest跟进下一页。

（三）数据处理与存储

与普通Scrapy项目类似，通过Item Pipeline处理和存储抓取到的数据。例如，将数据存储到MongoDB数据库，在pipelines.py文件中编写相应的处理逻辑：
import pymongo
from my_project.items import PostItem

class MongoDBPipeline:
def __init__(self):
self.client = pymongo.MongoClient("mongodb://localhost:27017/")
self.db = self.client["social_data"]
self.collection = self.db["posts"]

def process_item(self, item, spider):
if isinstance(item, PostItem):
data = dict(item)
self.collection.insert_one(data)
return item
在settings.py文件中启用该Pipeline：
ITEM_PIPELINES = {
'my_project.pipelines.MongoDBPipeline': 300,
}
四、Scrapy-Splash的进阶应用与优化

（一）使用Splash Lua脚本

Splash支持使用Lua脚本进行更精细的页面操作和数据提取。例如，通过Lua脚本滚动页面加载更多动态内容，然后再获取页面数据。在SplashRequest中可以传递lua_source参数执行自定义Lua脚本：
lua_script = """
function main(splash)
assert(splash:go(splash.args.url))
assert(splash:wait(2))
splash:runjs("window.scrollTo(0, document.body.scrollHeight);")
assert(splash:wait(3))
return splash:html()
end
"""

yield SplashRequest(url, self.parse, args={'lua_source': lua_script})
上述脚本先访问页面，等待2秒，然后执行JavaScript代码滚动页面，再等待3秒，最后返回渲染后的页面HTML。

（二）性能优化

1. 调整等待时间：合理设置SplashRequest中的wait参数，避免等待时间过长影响爬虫效率，但也要确保页面充分渲染。可以根据页面加载速度和JavaScript执行复杂度进行调整。

2. 缓存策略：利用Scrapy-Splash的缓存机制，对已渲染的页面进行缓存，避免重复请求和渲染，提高爬虫性能。可在settings.py文件中进一步优化HTTPCACHE_STORAGE相关配置。

五、总结

Scrapy-Splash为Python开发者解决JavaScript渲染网页的抓取难题提供了高效的解决方案。通过将Scrapy框架与Splash服务相结合，能够轻松应对复杂的动态页面，实现数据的完整采集。本文介绍了Scrapy-Splash的原理、安装配置、实战应用以及进阶优化方法，在实际项目中，开发者可根据具体需求灵活运用这些知识，突破JavaScript渲染的障碍，打造功能强大的爬虫系统。