优点:最常用且最便捷高效的一种解析方式,通用性强
原理:
-1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中
-2.调用etree对象中的xpath方法结合着xpath表达式实现标签定位与内容捕获
环境:pip install lxml
实例化:from lxml import etree
-1.本地加载:etree.parse(filepath)
-2.网页加载:etree.HTML('page_text')
-3.xpath(’xpath表达式‘)重点
xpath表达式:
1./:表示从根节点开始定位,表示一个层级
2.//:表示多个层级,也可以表示从任意位置开始定位
3.属性定位:tag[@属性名=”属性值“]
eg://div[@class="song"]
4.索引定位:tag[@属性名=”属性值“]/标签[索引] 注意索引是从一开始的
5.取文本:
/text():直系文本
//text():非直系,即所有文本
6.取属性:
/@属性名 eg:/@src
案例:爬取图片(无关键字)