XPath
序言
XPath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性进行遍历。XPath是W3C XSLT标准的主要元素,并且XQuery和XPointer都构建于XPath表达之上。XPath在Python的爬虫学习中,起着举足轻重的作用,对比正则表达式re,两者可以完成同样的工作,实现的功能也类似,但XPath明显比re具有优势,在网页分析上使re退居二线。
XPath的全称为XML Path Language,是一种小型的查询语言,其有如下优点。
(1)可在XML中查找信息。
(2)支持HTML的查找。
(3)可通过元素和属性进行导航。
Python使用XPath需要安装lxml库。
XPath的使用方法
下面介绍一下XPath的基本语法知识,常见的使用方法主要有一下几种。
选取节点
/ / // //(双斜杠) | 定位根节点,会对全文进行扫描,在文档中选取所有符合条件的内容,以列表的形式返回。 |
---|---|
/ / /(单斜杠) | 寻找当前标签路径的下一层路径标签或当前路径标签内容进行操作。 |
/ t e x t ( ) /text() /text() | 获取当前路径下的文本内容。 |
/ @ /@ /@ | 提取当前路径下的标签属性。 |
|(可选符) | 使用“|”可选取若干个路径,如//p|//div,即在当前路径下选取所有符合条件的p标签和div标签。 |
. . .(点) | 用来选取当前节点。 |
. . .. ..(双点) | 选取当前节点的父节点。 |
谓语
谓语用来查找某个特定节点或者包含某个指定值的节点。
谓语被镶嵌在中括号中。
路径表达式 | 结果 |
---|---|
/ b o o k s t o r e / b o o k [ 1 ] /bookstore/book[1] /bookstore/book[1] | 选取属于 bookstore 子元素的第一个 book 元素。 |
/ b o o k s t o r e / b o o k [ l a s t ( ) ] /bookstore/book[last()] /bookstore/book[last()] | 选取属于 bookstore 子元素的最后一个 book 元素。 |
/ b o o k s t o r e / b o o k [ l a s t ( ) − 1 ] /bookstore/book[last()-1] /bookstore/book[last()−1] | 选取属于 bookstore 子元素的倒数第二个 book 元素。 |
/ b o o k s t o r e / b o o k [ p o s i t i o n ( ) < 3 ] /bookstore/book[position()< 3] /bookstore/book[position()<3] | 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。 |
/ / t i t l e [ @ l a n g ] //title[@lang] //title[@lang] | 选取所有拥有名为 lang 的属性的 title 元素。 |
/ / t i t l e [ @ l a n g = ′ e n g ′ ] //title[@lang='eng'] //title[@lang=′eng′] | 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。 |
/ b o o k s t o r e / b o o k [ p r i c e > 35.00 ] /bookstore/book[price>35.00] /bookstore/book[price>35.00] | 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。 |
/ b o o k s t o r e / b o o k [ p r i c e > 35.00 ] / t i t l e /bookstore/book[price>35.00]/title /bookstore/book[price>35.00]/title | 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。 |
通配符
通配符 | 描述 |
---|---|
∗ * ∗ | 匹配任何元素节点。 |
@ ∗ @* @∗ | 匹配任何属性节点。 |
XPah的使用
XPath是lxml库中的一个函数,处理对象是<class ‘lxml.etree._Element’>,对于requests.get()函数得到的<class ‘requests.models.Response’>类型需要取其源码使用etree.HTML()函数转换。
url='http://www.baidu.com'
html=requests.get(url)
#html.encoding='utf-8'#避免中文乱码
ht=lxml.etree.HTML(html.text)
url='http://www.baidu.com'
html=requests.get(url)
ht=lxml.etree.HTML(html.content)
注意:text调用的类型是str,其中的中文会乱码,可以在解码前转码为“utf-8”,content调用的类型是bytes即二进制码,其没有进行text中的转码所以不会乱码。