(2)通过XPath地址定位标签

XPath

序言

XPath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性进行遍历。XPath是W3C XSLT标准的主要元素,并且XQuery和XPointer都构建于XPath表达之上。XPath在Python的爬虫学习中,起着举足轻重的作用,对比正则表达式re,两者可以完成同样的工作,实现的功能也类似,但XPath明显比re具有优势,在网页分析上使re退居二线。

XPath的全称为XML Path Language,是一种小型的查询语言,其有如下优点。
(1)可在XML中查找信息。
(2)支持HTML的查找。
(3)可通过元素和属性进行导航。

Python使用XPath需要安装lxml库。

XPath的使用方法

下面介绍一下XPath的基本语法知识,常见的使用方法主要有一下几种。
选取节点

/ / // //(双斜杠)定位根节点,会对全文进行扫描,在文档中选取所有符合条件的内容,以列表的形式返回。
/ / /(单斜杠)寻找当前标签路径的下一层路径标签或当前路径标签内容进行操作。
/ t e x t ( ) /text() /text()获取当前路径下的文本内容。
/ @ /@ /@提取当前路径下的标签属性。
|(可选符)使用“|”可选取若干个路径,如//p|//div,即在当前路径下选取所有符合条件的p标签和div标签。
. . .(点)用来选取当前节点。
. . .. ..(双点)选取当前节点的父节点。

谓语
谓语用来查找某个特定节点或者包含某个指定值的节点。
谓语被镶嵌在中括号中。

路径表达式结果
/ b o o k s t o r e / b o o k [ 1 ] /bookstore/book[1] /bookstore/book[1]选取属于 bookstore 子元素的第一个 book 元素。
/ b o o k s t o r e / b o o k [ l a s t ( ) ] /bookstore/book[last()] /bookstore/book[last()]选取属于 bookstore 子元素的最后一个 book 元素。
/ b o o k s t o r e / b o o k [ l a s t ( ) − 1 ] /bookstore/book[last()-1] /bookstore/book[last()1]选取属于 bookstore 子元素的倒数第二个 book 元素。
/ b o o k s t o r e / b o o k [ p o s i t i o n ( ) < 3 ] /bookstore/book[position()< 3] /bookstore/book[position()<3]选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
/ / t i t l e [ @ l a n g ] //title[@lang] //title[@lang]选取所有拥有名为 lang 的属性的 title 元素。
/ / t i t l e [ @ l a n g = ′ e n g ′ ] //title[@lang='eng'] //title[@lang=eng]选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。
/ b o o k s t o r e / b o o k [ p r i c e > 35.00 ] /bookstore/book[price>35.00] /bookstore/book[price>35.00]选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。
/ b o o k s t o r e / b o o k [ p r i c e > 35.00 ] / t i t l e /bookstore/book[price>35.00]/title /bookstore/book[price>35.00]/title选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。

通配符

通配符描述
∗ * 匹配任何元素节点。
@ ∗ @* @匹配任何属性节点。

XPah的使用

XPath是lxml库中的一个函数,处理对象是<class ‘lxml.etree._Element’>,对于requests.get()函数得到的<class ‘requests.models.Response’>类型需要取其源码使用etree.HTML()函数转换。

url='http://www.baidu.com'
html=requests.get(url)
#html.encoding='utf-8'#避免中文乱码
ht=lxml.etree.HTML(html.text)
url='http://www.baidu.com'
html=requests.get(url)
ht=lxml.etree.HTML(html.content)

注意:text调用的类型是str,其中的中文会乱码,可以在解码前转码为“utf-8”,content调用的类型是bytes即二进制码,其没有进行text中的转码所以不会乱码。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值