（2）通过XPath地址定位标签

最新推荐文章于 2023-09-18 14:27:55 发布

shi_zi_183

最新推荐文章于 2023-09-18 14:27:55 发布

阅读量560

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/shi_zi_183/article/details/108968697

版权

python爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

XPath

序言

XPath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性进行遍历。XPath是W3C XSLT标准的主要元素，并且XQuery和XPointer都构建于XPath表达之上。XPath在Python的爬虫学习中，起着举足轻重的作用，对比正则表达式re，两者可以完成同样的工作，实现的功能也类似，但XPath明显比re具有优势，在网页分析上使re退居二线。

XPath的全称为XML Path Language，是一种小型的查询语言，其有如下优点。
（1）可在XML中查找信息。
（2）支持HTML的查找。
（3）可通过元素和属性进行导航。

Python使用XPath需要安装lxml库。

XPath的使用方法

下面介绍一下XPath的基本语法知识，常见的使用方法主要有一下几种。
选取节点

$/ /$ （双斜杠）	定位根节点，会对全文进行扫描，在文档中选取所有符合条件的内容，以列表的形式返回。
$/$ （单斜杠）	寻找当前标签路径的下一层路径标签或当前路径标签内容进行操作。
$/ t e x t ()$	获取当前路径下的文本内容。
$/ @$	提取当前路径下的标签属性。
\|（可选符）	使用“\|”可选取若干个路径，如//p\|//div，即在当前路径下选取所有符合条件的p标签和div标签。
$.$ （点）	用来选取当前节点。
$. .$ （双点）	选取当前节点的父节点。

谓语
谓语用来查找某个特定节点或者包含某个指定值的节点。
谓语被镶嵌在中括号中。

路径表达式	结果
$/ b o o k s t o r e / b o o k [1]$	选取属于 bookstore 子元素的第一个 book 元素。
$/ b o o k s t o r e / b o o k [l a s t ()]$	选取属于 bookstore 子元素的最后一个 book 元素。
$/ b o o k s t o r e / b o o k [l a s t () - 1]$	选取属于 bookstore 子元素的倒数第二个 book 元素。
$/ b o o k s t o r e / b o o k [p o s i t i o n () < 3]$	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
$/ / t i t l e [@ l a n g]$	选取所有拥有名为 lang 的属性的 title 元素。
$/ / t i t l e [@ l a n g =^{'} e n g^{'}]$	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
$/ b o o k s t o r e / b o o k [p r i c e > 35.00]$	选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
$/ b o o k s t o r e / b o o k [p r i c e > 35.00] / t i t l e$	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

通配符

通配符	描述
$*$	匹配任何元素节点。
$@ *$	匹配任何属性节点。

XPah的使用

XPath是lxml库中的一个函数，处理对象是<class ‘lxml.etree._Element’>，对于requests.get（）函数得到的<class ‘requests.models.Response’>类型需要取其源码使用etree.HTML（）函数转换。

url='http://www.baidu.com'
html=requests.get(url)
#html.encoding='utf-8'#避免中文乱码
ht=lxml.etree.HTML(html.text)

url='http://www.baidu.com'
html=requests.get(url)
ht=lxml.etree.HTML(html.content)

注意：text调用的类型是str，其中的中文会乱码，可以在解码前转码为“utf-8”，content调用的类型是bytes即二进制码，其没有进行text中的转码所以不会乱码。

shi_zi_183

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录