python爬虫:scrapy框架 xpath和css选择器语法

最新推荐文章于 2020-12-10 20:19:41 发布

月野兔是啥

最新推荐文章于 2020-12-10 20:19:41 发布

阅读量298

点赞数 1

分类专栏：笔记文章标签： python xpath css

本文链接：https://blog.csdn.net/weixin_42970234/article/details/86212042

版权

8 篇文章 0 订阅

订阅专栏

一、常用的路径表达式：

举例元素标签为artical(文章)标签

语法	说明
artical	选取所有artical元素的子节点
/artical	选取根元素artical
./artical	选取当前元素下的artical
../artical	选取父元素下的artical
. artical/a	选取所有属于artical的子元素a元素
//div	选取所有div子元素，无论div在任何地方
artical//div	选取所有artical的div元素，无论div元素在artical的任何位置
//@class	选取所有名为class的属性
a/@href	选取a标签的href属性
a/text()	选取a标签下的文本
string(.)	解析出当前节点下所有的文字
string(..)	解析出父节点下所有文字

二、谓语

谓语被嵌在方括号内，用来查找某个特定的节点或包含某个指定的值的节点

语法	说明
/artical/div[1]	选取所有属于artical子元素的第一个div元素
/artical/div[last()]	选取所有属于artical子元素的最后一个div元素
/artical/div[last()-1]	选取所有属于artical子元素的倒数第二个div元素
/artical/div[position()<3]	选取所有属于artical子元素的前两个div元素
//div[@class]	选取所有拥有属性为class的div节点
//div[@class="main"]	选取所有div下class属性为main的div节点
//div[price>3.5]	选取所有div下元素值price大于3.5的节点

三、通配符

Xpath通过通配符来选取位置的XML元素

四、取多个路径

使用 '|' 运算符可以选取多个路径

语法	说明
*	选择所有节点
#container	选择id为container的节点
.container	选择所有class包含container的节点
div.p	选择所有div元素和所有p元素
li a	选取所有li下所有a节点
ul + p	选取ul后面的第一个p元素
div#container > ul	选取id为container的div的第一个ul子元素
ul ~p	选取与ul相邻的所有p元素
a[title]	选取所有有title属性的a元素
a[href="http://baidu.com"]	选取所有href属性为 http://baidu.com的a元素
a[href*="baidu"]	选取所有href属性值包含baidu的a元素
a[href^="http"]	选取所有href属性值中以http开头的a元素
a[href$=".jpg"]	选取所有href属性值中以.jpg结尾的a元素
input[type=radio]:checked	选择选中的radio的元素
div:not(#container)	选取所有id为非container的div属性
li:nth-child(3)	选取第三个li元素
li:nth-child(2n)	选取第偶数个li元素
a::atttr(href)	选取a标签的href属性
a::text	选取a标签下的文本

提取内容

方法	返回
selector.xpath()	返回SelectorList对象
selector.css()	返回selectorList对象
selectorList.extract()	返回List对象
selectorList.extract_first(default)	返回string对象。可以有默认值，类似dict.get(key,default)

关注