xpath解析:最常用且便捷高效的解析方式,通用性
1、实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中
2、调用etree对象中的xpath方法结合这xpath表示式实现标签的定位和内容的捕获
环境的安装
1、pip install lxml
如何实例化一个etree对象 :from lxml import etree
1、将本地的html文档中的源码数据加载到etree对象中
etree.parse(filepath)
2、可以从互联网获取的源码数据加载到该对象中
etree.HTML(page_text)
xpath(‘xpath表达式’)
/表示从根节点开始定位,表示一个层级
r=tree.xpath('/ht,l/body/div')
//表示的是多个层级,可以表示从任意位置开始定位
r=tree.xpath('/html//div')
r=tree.xpath('//div')
属性定位
//div[@属性名='属性值'] tag[@属性名=属性值]
索引定位
#(索引下标从1开始计算)
r= tree.xpath('//div[@属性名=属性值]/标签名[索引下标]')