Xpath学习
爬虫,避免不了使用Xpath工具,Xpath是一门在XML文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历。所以在学习之余发一篇博客加深印象。
Xpath节点
在Xpath中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档节点(又称为根节点)
<?xml version="1.0" encoding=""?>
<bookshop>
<book>
<title lang="en">Fear: Trump in the White House</title>
<author>Bob Woodward</author>
<year>2018</year>
<price>30</price>
</book>
</bookstore>
上面的XML文档中的节点例子:
<bookshop> 文档节点
<author> Bob Woodward</author> 元素节点
lang = "en" 属性节点
基本值
基本值是无父或无子的节点。
基本值的例子:
Bob Woodward
"en"
节点关系
父(parent)
在上面的例子中,book的元素是title,author,year,price元素的父。
子(children)
元素节点可有零个、一个或多个子
在上面的例子中,title、author、year、price都是book元素的子。
同胞(sibling)
在上面的例子中,title、author、year、price都是book元素的同胞。
先辈(Ancestor)
在上面的例子中,title元素的先辈是book元素和bookshop元素。
后代(Descendant)
在上面的例子中,bookshop的后代是book、title、author、year、price元素
XML实例文档
<?xml version="1.0" encoding=""?>
<bookshop>
<book>
<title lang="eng">Fear: Trump in the White House</title>
<price>30</price>
</book>
<book>
<title lang="eng">LearnPython</title>
<price>20</price>
</book>
</bookshop>
选取节点
Xpath使用路径表达式在XML文档中选取节点。节点是通过沿着路径或者step来选取的。
下面列出了Xpath的路径表达式
表达式 | 描述 |
---|---|
nodename | 选取此节点的所有节点 |
/ | 从根节点选取 |
// | 从匹配选择的当前节点选择文档中的所有符合条件节点、不考虑位置 |
. | 选取当前节点 |
… | 选取当前节点的父节点 |
@ | 选取属性 |
路径表达式 | 结果 |
---|---|
bookshop | 选取bookshop元素的所有子节点 |
/bookshop | 选取根元素bookshop |
bookshop/book | 选取属于bookshop的子元素的所有book元素 |
//book | 选区所有book子元素,而不管它们在文档中的位置 |
bookshop//book | 选择属于bookshop元素的后代的所有book元素,而不管他们位于bookshop的位置 |
//@lang | 选区名为lang的所有属性 |
谓语(predicates)
谓语用来查找某个特定的节点或者包含某个特定的值的节点。
谓语被嵌套在方括号内。
路径表达式 | 结果 |
---|---|
/bookshop/book[1] | 选取属于bookstore子元素的第一个book元素 |
/bookshop/book[last()] | 选取属于bookshop子元素的最后一个book元素 |
/bookshop/book[last()-1] | 选取属于bookshop子元素的倒数第二个book元素 |
/bookshop/book[position()< 3] | 选取最前面的两个属于bookshop元素的子元素的book元素 |
//title[@lang] | 选取所有拥有名为lang的属性的title元素 |
//title[@lang=‘en’] | 选取所有title元素,且这些元素拥有值为en的lang属性 |
/bookshop/book[price>50] | 选取bookshop元素的所有book元素,且其中的price元素值须小于50 |
/bookshop/book[price> 50]/title | 选取bookshop元素中的book元素的所有title元素且price值必须大于50 |
选取未知节点
Xpath通配符可以用来选取未知的XML元素
通配符 | 描述 |
---|---|
* | 匹配任何元素 |
@* | 匹配任何属性节点 |
node() | 匹配任何类型的节点 |
实例:
路径表达式 | 结果 |
---|---|
/bookshop/* | 选取bookshop元素的所有子元素 |
//* | 选取文档中的所有元素 |
//title[@*] | 选取所有带有属性的title元素 |
选取若干路径
通过在路径表达式中使用 “|” 运算符,可以选取若干路径
(因为 | 运算符会混淆表格,所以就按格式写了)
路径表达式 结果
//book/title | //book/price (选取book元素的所有title和price元素)
//title | //price (选取文档中所有title和price元素)
/bookshop/book/title | //price (选取属于 bookshop 元素的 book 元素的所有 title 元素,以及文档中所有的 price 元素。)
XMl实例文档
“books.xml”:
<?xml version="1.0" encoding=""?>
<bookshop>
<book category="COOKING">
<title lang="en">Everyday Italian</title>
<author>Giada De Laurentiis</author>
<year>2005</year>
<price>30.00</price>
</book>
<book category="CHILDREN">
<title lang="en">Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
<book category="WEB">
<title lang="en">XQuery Kick Start</title>
<author>James McGovern</author>
<author>Per Bothner</author>
<author>Kurt Cagle</author>
<author>James Linn</author>
<author>Vaidyanathan Nagarajan</author>
<year>2003</year>
<price>49.99</price>
</book>
<book category="WEB">
<title lang="en">Learning XML</title>
<author>Erik T. Ray</author>
<year>2003</year>
<price>39.95</price>
</book>
</bookstore>
# code from w3school.com
选取所有title
/bookshop/book/title
选取第一个book的title
/bookshop/book[1]/title
#这里w3c的标准以1为第一个节点,日常编写应该是0
选取所有价格
/bookshop/book/price/text()
选取价格高于35的price节点
/bookshop/book[price>35]/price
选取价格高于35的title节点
/bookshop/book[price>35]/title
大概就是这样,在实战中肯定不是去用xpath找这样的节点,只是便于理解,具体还需要自己经历,学习资料来自w3c.com