etree是python中的XML解析库,主要用于解析和操作XML文档,用 pip install lxml 安装etree。
首先使用时需要导入etree模块
l
以HTML为例来获取其中的元素
要查找HTNL文本下的元素就需要输入代码:
selector=etree.HTML(html)
1.查找出html中【li】第一个【li】标签下的a元素文本信息
list_1=selector.xpath('//div/ul/li[1]')
2.通过class属性查找html中第三个【li】标签属性和a元素文本信息
list_2=selector.xpath('//div/ul/li[@class="line-message"]')
3.通过href属性定位查找出已知Html中[li]中第4个[li]标签属性及a元素文本信息
list_3=selector.xpath('//div/ul/li[4]/a[@href="link4.html"]')
4:提取出含有‘line-’的li下的a元素内容
list_4=selector.xpath('//li/a/text()')
5.删除左右空格,使用空格替换\n
list5_text=list5_all.strip().replace('\n',' ')