scrapy中选择器selector的使用

最新推荐文章于 2022-02-11 16:09:46 发布

凯旋的皇阿玛

最新推荐文章于 2022-02-11 16:09:46 发布

阅读量753

点赞数

分类专栏： scrapy 文章标签：选择器 selector scrapy

本文链接：https://blog.csdn.net/qq1195365047/article/details/79907559

版权

scrapy 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

scrapy 中选择器用法：selector对象
xpath(): 返回选择器列表，每个选择器代表使用xpath语法选择的节点
css(): 返回选择器列表，每个选择器代表使用css语法选择的节点
extract(): 返回被选择元素的unicode字符串
re(): 返回通过正则表达式提取的unicode字符串列表

<html>
<head>
<base href='http://example.com/' />
<title>Example website</title>
</head>
<body>
<div id='images'>
<a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>
<a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>
<a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>
<a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>
<a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>
</div>
</body>
</html>

response.xpath('//div[@id="images"]').css('img')
可迭代使用

response.css('a::text')等价于 response.xpath(//a/text())

response.xpath('//div[@id="images"]').css('img::attr(src)').extract() 获取图片
['image1_thumb.jpg',
'image2_thumb.jpg',
'image3_thumb.jpg',
'image4_thumb.jpg',
'image5_thumb.jpg']

>>> response.xpath('//base/@href').extract()
[u'http://example.com/']

>>> response.css('base::attr(href)').extract()
[u'http://example.com/']

>>> response.xpath('//a[contains(@href, "image")]/@href').extract()
[u'image1.html',
u'image2.html',
u'image3.html',
u'image4.html',
u'image5.html']

>>> response.css('a[href*=image]::attr(href)').extract() #注意是*=
[u'image1.html',
u'image2.html',
u'image3.html',
u'image4.html',
u'image5.html']

>>> response.xpath('//a[contains(@href, "image")]/img/@src').extract()
[u'image1_thumb.jpg',
u'image2_thumb.jpg',
u'image3_thumb.jpg',
u'image4_thumb.jpg',
u'image5_thumb.jpg']

>>> response.css('a[href*=image] img::attr(src)').extract()
[u'image1_thumb.jpg',
u'image2_thumb.jpg',
u'image3_thumb.jpg',
u'image4_thumb.jpg',
u'image5_thumb.jpg']

>>> response.css('a::text').re('Name\:(.*)') #\表示转义
[' My image 1 ',
' My image 2 ',
' My image 3 ',
' My image 4 ',
' My image 5 ']
>>>response.css('a::text').re_first('Name:\:(.*)')
My iamge 1