如何使用Scrapy来爬取动态页面_scrapy动态页面爬取实例

最新推荐文章于 2024-05-14 08:38:03 发布

2301_82244608

最新推荐文章于 2024-05-14 08:38:03 发布

阅读量1.1k

点赞数 27

分类专栏： 2024年程序员学习文章标签： scrapy

本文链接：https://blog.csdn.net/2301_82244608/article/details/137802915

版权

2024年程序员学习专栏收录该内容

95 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Golang全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上Go语言开发知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024b （备注go）

正文

在上述代码中，我们使用SeleniumRequest来发送请求，并使用Selenium来加载和渲染动态页面。在parse()方法中，我们使用Scrapy-Selector来解析响应，并使用XPath或CSS选择器来提取数据。

运行爬虫
通过运行以下命令来启动爬虫：

scrapy crawl myspider

Scrapy将会自动启动Selenium，并使用它来加载和渲染动态页面。然后，Scrapy-Selector将会解析响应并提取我们需要的数据。

注意事项：

确保已经正确配置了Chrome浏览器和对应的ChromeDriver，并将其路径正确设置在"settings.py"文件中的SELENIUM_DRIVER_EXECUTABLE_PATH配置项中。
动态页面的加载可能会比较耗时，所以爬取速度可能会受到影响。可以通过调整Scrapy的并发请求数和下载延时来优化爬取速度。

下面将提供几个案例：

案例1：使用Scrapy爬取JavaScript渲染的页面

import scrapy
from scrapy.selector import Selector
from scrapy_selenium import SeleniumRequest

class MySpider(scrapy.Spider):
name = ‘myspider’
start_urls = [‘http://www.example.com’]

def start_requests(self):
for url in self.start_urls:
yield SeleniumRequest(url=url, callback=self.parse)

def parse(self, response):

使用Scrapy-Selector解析响应

selector = Selector(response)

提取数据

data = selector.xpath(‘//h1/text()’).get()
yield {‘data’: data}

在这个案例中，我们使用SeleniumRequest来发送请求，并使用Selenium来加载和渲染动态页面。在parse()方法中，我们使用Scrapy-Selector来解析响应，并使用XPath或CSS选择器来提取数据。

案例2：使用Scrapy-Selector提取动态页面中的数据

import scrapy
from scrapy.selector import Selector
from scrapy_selenium import SeleniumRequest

class MySpider(scrapy.Spider):
name = ‘myspider’
start_urls = [‘http://www.example.com’]

def start_requests(self):
for url in self.start_urls:
yield SeleniumRequest(url=url, callback=self.parse)

def parse(self, response):

使用Scrapy-Selector解析响应

selector = Selector(response)

提取数据

data = selector.xpath(‘//h1/text()’).get()
yield {‘data’: data}

在这个案例中，我们使用SeleniumRequest来发送请求，并使用Selenium来加载和渲染动态页面。使用Scrapy-Selector来解析响应，并使用XPath或CSS选择器来提取数据。

案例3：使用Scrapy爬取动态页面中的表单数据

import scrapy
from scrapy_selenium import SeleniumRequest

class MySpider(scrapy.Spider):
name = ‘myspider’
start_urls = [‘http://www.example.com’]

def start_requests(self):
for url in self.start_urls:
yield SeleniumRequest(url=url, callback=self.parse)

def parse(self, response):

提交表单数据

yield scrapy.FormRequest.from_response(
response,
formdata={‘username’: ‘myusername’, ‘password’: ‘mypassword’},
callback=self.after_login
)

def after_login(self, response):

处理登录后的响应

提取数据或继续爬取其他页面

pass

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip1024b （备注Go）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
存中…(img-e40JD97K-1713207871580)]

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2301_82244608

关注

27
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
如何使用Scrapy来爬取动态页面_scrapy动态页面爬取实例

在parse()方法中，我们使用Scrapy-Selector来解析响应，并使用XPath或CSS选择器来提取数据。在这个案例中，我们使用SeleniumRequest来发送请求，并使用Selenium来加载和渲染动态页面。在parse()方法中，我们使用Scrapy-Selector来解析响应，并使用XPath或CSS选择器来提取数据。在这个案例中，我们使用SeleniumRequest来发送请求，并使用Selenium来加载和渲染动态页面。案例3：使用Scrapy爬取动态页面中的表单数据。
复制链接

扫一扫