Selenium与Scrapy的黄金组合：实现动态网页爬虫

最新推荐文章于 2024-05-31 21:24:28 发布

自动化测试分享

最新推荐文章于 2024-05-31 21:24:28 发布

阅读量1.3k

点赞数 19

分类专栏：功能测试面试软件测试文章标签： selenium scrapy 爬虫功能测试软件测试自动化测试程序员

本文链接：https://blog.csdn.net/2301_76387166/article/details/136404461

版权

软件测试同时被 3 个专栏收录

339 篇文章 3 订阅

订阅专栏

功能测试

247 篇文章 0 订阅

订阅专栏

面试

156 篇文章 0 订阅

订阅专栏

2024软件测试面试刷题，这个小程序（永久刷题），靠它快速找到工作了！（刷题APP的天花板）_软件测试刷题小程序-CSDN博客文章浏览阅读2.7k次，点赞85次，收藏12次。你知不知道有这么一个软件测试面试的刷题小程序。里面包含了面试常问的软件测试基础题，web自动化测试、app自动化测试、接口测试、性能测试、自动化测试、安全测试及一些常问到的人力资源题目。最主要的是他还收集了像阿里、华为这样的大厂面试真题，还有互动交流板块……_软件测试刷题小程序https://blog.csdn.net/AI_Green/article/details/134931243?spm=1001.2014.3001.5502在当今互联网时代，大量网站采用动态网页技术呈现信息，这给爬虫技术提出了新的挑战。本文将带您深入探讨如何应对动态网页的爬取难题，结合Python爬虫框架Scrapy和自动化测试工具Selenium进行实战，为您揭示动态网页爬取的技术奥秘。

动态网页与传统爬虫的对比

传统爬虫主要通过直接请求页面获取静态源代码，但动态网页通过JavaScript等技术在浏览器中进行数据加载，导致源代码不完整。解决这一问题的利器是结合Scrapy和Selenium，使我们能够模拟浏览器操作，获取完整渲染后的页面数据。

Scrapy与Selenium的黄金组合

Scrapy是Python中强大的爬虫框架，拥有强大的页面解析和异步处理功能。结合Selenium，我们能够模拟用户在浏览器中的交互，获取动态加载后的页面内容。这两者的协同工作，为动态网页爬取提供了一种高效可行的解决方案。

实战经验总结

在实际应用中，首先确保Scrapy和Selenium已正确安装，并配置好ChromeDriver等必要工具。接着，创建Scrapy项目，添加Selenium中间件，进而实现动态网页的爬取。

具体实现过程

Selenium中间件：穿越动态网页的障碍

在middlewares.py文件中，我们设置了Selenium的中间件，为Scrapy赋予了穿越动态网页障碍的能力。这段代码展示了如何利用Selenium模拟浏览器操作，获取完整渲染后的页面数据。让我们逐步解析这个神奇的中间件。

　　# 在middlewares.py文件中设置Selenium的中间件
　　from scrapy import signals
　　from scrapy.http import HtmlResponse
　　from selenium import webdriver
　　class SeleniumMiddleware:
　　    @classmethod
　　    def from_crawler(cls, crawler):
　　        middleware = cls()
　　        crawler.signals.connect(middleware.spider_opened, signals.spider_opened)
　　        return middleware
　　    def process_request(self, request, spider):
　　        driver = webdriver.Chrome()
　　        driver.get(request.url)
　　        body = driver.page_source
　　        return HtmlResponse(driver.current_url, body=body, encoding='utf-8', request=request)
　　    def spider_opened(self, spider):
　　        spider.logger.info('Spider opened: %s' % spider.name)

process_request方法中，我们创建了一个Chrome浏览器的实例，加载目标网页，获取完整的页面源代码，然后封装成HtmlResponse对象返回给Scrapy。

　　· spider_opened方法用于在Spider启动时输出一条日志信息，以便我们追踪Spider的运行情况。

动态网页爬虫：解析并收割信息的艺术

动态网页爬虫的代码段展示了如何创建一个名为dynamic_spider.py的文件，实现基于Scrapy框架的动态网页爬取。这个Spider将从'example.com'开始，通过XPath表达式解析页面，提取标题和内容，并将结果保存在指定的item中。

　　import scrapy
　　from scrapy.http import Request
　　from dynamic_spider.items import DynamicSpiderItem
　　class DynamicSpider(scrapy.Spider):
　　    name = 'dynamic_spider'
　　    start_urls = ['http://example.com']
　　    def start_requests(self):
　　        proxyHost = "www.16yun.cn"
　　        proxyPort = "5445"
　　        proxyUser = "16QMSOML"
　　        proxyPass = "280651"
　　        proxy_url = f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"
　　        yield Request(self.start_urls[0], callback=self.parse, meta={'proxy': proxy_url})
　　    def parse(self, response):
　　        item = DynamicSpiderItem()
　　        item['title'] = response.xpath('//h1/text()').get()
　　        item['content'] = response.xpath('//p/text()').get()
　　        yield item

　·parse方法中，我们使用XPath表达式提取了目标网页中的标题和内容，然后将结果封装成一个item，并通过yield语句传递给Scrapy框架。

实际应用：将代码放置于Scrapy项目中

在实际应用中，将上述两段代码分别放置在Scrapy项目的middlewares.py和spiders文件夹下的dynamic_spider.py文件中，即可运行动态网页爬虫。

5. 性能优化与注意事项

　　·设置合理的爬取速度控制爬取速度，避免对目标网站造成不必要的负担，同时可以设置随机的User-Agent来模拟不同用户的访问。

　　· 处理动态加载的数据使用Selenium等待特定的元素加载完成，确保数据完全呈现在页面上再进行提取。

　　· 应对反爬手段一些网站采用反爬虫技术，通过设置User-Agent、Cookie等信息来检测爬虫行为，需要在爬虫中模拟真实用户的访问行为。

行动吧，在路上总比一直观望的要好，未来的你肯定会感谢现在拼搏的自己！如果想学习提升找不到资料，没人答疑解惑时，请及时加入群： 759968159，里面有各种测试开发资料和技术可以一起交流哦。

最后： 下方这份完整的软件测试视频教程已经整理上传完成，需要的朋友们可以自行领取【保证100%免费】

软件测试面试文档

我们学习必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有字节大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。在这里插入图片描述

在这里插入图片描述

自动化测试分享

关注

19
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
Selenium与Scrapy的黄金组合：实现动态网页爬虫

在当今互联网时代，大量网站采用动态网页技术呈现信息，这给爬虫技术提出了新的挑战。本文将带您深入探讨如何应对动态网页的爬取难题，结合Python爬虫框架Scrapy和自动化测试工具Selenium进行实战，为您揭示动态网页爬取的技术奥秘。
复制链接

扫一扫

专栏目录