etree简介
etree是基于ElementTree API的一种XML解析方式。相较于SAX,DOM而言,具有代码可用性好,速度快,消耗内存少等特点。Python的lxml库中的etree,提供了ElementTree API定义的接口。
依赖库安装
要使用etree,需要安装lxml。
pip install lxml
常用方法:
etree.HTML(): 实例化tree对象, 返回etree对象
tree.xpath(): 可以定位标签
etree.tostring:节点对象到字符串的转换
常用方法举例
分析豆瓣网址相关数据,来说明etree.xpath的使用。
1.初始化
from lxml import etree
# 实例化tree对象
tree = etree.HTML(open('index.html', 'r', encoding='UTF-8').read())
2.找超链接 登录 注册
res = tree.xpath('/html/body/div/div/div/a')
# 节点对象转换成字符串输出
for e in res:
print(etree.tostring(e,encoding='UTF-8').decode('UTF-8'))
运行结果: