Scrapy爬虫Xpath编写规则梳理

最新推荐文章于 2024-04-23 09:52:22 发布

Huangyong_csdn

最新推荐文章于 2024-04-23 09:52:22 发布

阅读量1.4k

点赞数 1

分类专栏： python 文章标签： scrapy爬虫 Xpath语法

本文链接：https://blog.csdn.net/huang_yong_/article/details/82660389

版权

本文介绍了如何在Scrapy爬虫中利用XPath选择器获取网页元素。通过浏览器开发者工具获取XPath路径，然后根据需求修改为适用于爬虫的形式，如获取列表集合、图片URL、文本内容等。同时，针对包含分页的情况，展示了如何遍历每个分类及分页进行数据抓取。

摘要由CSDN通过智能技术生成

进入浏览器的开发者模式（F12），选取需要获取的节点，如果我们想获取一个列表，例如：
这里写图片描述

在li节点上右键，copy->copy xpath即可获取当前节点的Xpath路径，
直接复制如下：

    /html/body/div[4]/div[1]/ul/li[1]

这个不能直接使用，这个是获取了li节点第一个元素，爬虫里我们需要获取一个集合，用来for循环，所以在爬虫开头里需要修改为：

        /html/body/div[4]/div[1]/ul/li

代码示例：

            #-----关键代码------
            def parse(self, response):
                for item in response.xpath('/html/body/div[4]/div[1]/ul/li'):

                movImgUrl = item.xpath('a/img/@src').extract_first() #海报地址
                detailPageUrl = item.xpath("a/@href").extract_first()#详情页地址

可见，如果需要获取 a标签里的图片地址，规则是:

     "a/img/@

最低0.47元/天解锁文章

Huangyong_csdn

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Scrapy爬虫Xpath编写规则梳理

进入浏览器的开发者模式（F12），选取需要获取的节点，如果我们想获取一个列表，例如：在li节点上右键，copy-&gt;copy xpath即可获取当前节点的Xpath路径，直接复制如下： /html/body/div[4]/div[1]/ul/li[1]这个不能直接使用，这个是获取了li节点第一个元素，爬虫里我们需要获取一个集合，用来for循环，所以在爬虫开头里需要修...
复制链接

扫一扫