scrapy使用xpath的extract()和extract_first()的区别

最新推荐文章于 2024-07-18 10:17:16 发布

周雄伟

最新推荐文章于 2024-07-18 10:17:16 发布

阅读量2.2w

点赞数 37

分类专栏： python 文章标签： scrapy python

本文链接：https://blog.csdn.net/ebzxw/article/details/102163887

版权

python 专栏收录该内容

45 篇文章 10 订阅

订阅专栏

在使用scrapy爬虫的时候，我们常常使用xpath来获取html标签，但是我们经常会用到提取的方法，有两种提取的方法，分别是：

extract():这个方法返回的是一个数组list，，里面包含了多个string，如果只有一个string，则返回['ABC']这样的形式。

extract_first()：这个方法返回的是一个string字符串，是list数组里面的第一个字符串。

Xpath选择器：
response.selector属性返回内容相当于response的body构造了一个Selector对象。
Selector对象可以调用xpath（）方法实现信息的解析提取。
在xpath（）后使用extract（）可以返回所有的元素结果。
若xpath（）有问题，那么extract（）会返回一个空列表。
在xpath（）后使用extract_first（）可以返回第一个元素结果。

for v in dllist:
     print(v.xpath("./dt/text()").extract_first())
     print("="*50)
     alist = v.xpath(".//a")
     for a in alist:
             print(a.xpath("./@href").extract_first(),end=":")
             print(a.xpath("./span/img/@alt").extract_first())