Scrapy爬虫Xpath编写规则梳理

本文介绍了如何在Scrapy爬虫中利用XPath选择器获取网页元素。通过浏览器开发者工具获取XPath路径,然后根据需求修改为适用于爬虫的形式,如获取列表集合、图片URL、文本内容等。同时,针对包含分页的情况,展示了如何遍历每个分类及分页进行数据抓取。
摘要由CSDN通过智能技术生成

进入浏览器的开发者模式(F12),选取需要获取的节点,如果我们想获取一个列表,例如:
这里写图片描述

在li节点上右键,copy->copy xpath即可获取当前节点的Xpath路径,
直接复制如下:

    /html/body/div[4]/div[1]/ul/li[1]

这个不能直接使用,这个是获取了li节点第一个元素,爬虫里我们需要获取一个集合,用来for循环,所以在爬虫开头里需要修改为:

        /html/body/div[4]/div[1]/ul/li

代码示例:

            #-----关键代码------
            def parse(self, response):
                for item in response.xpath('/html/body/div[4]/div[1]/ul/li'):

                movImgUrl = item.xpath('a/img/@src').extract_first() #海报地址
                detailPageUrl = item.xpath("a/@href").extract_first()#详情页地址

可见,如果需要获取 a标签里的图片地址,规则是:

     "a/img/@
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值