Python爬虫之lxml模块

最新推荐文章于 2023-12-03 12:22:42 发布

琴酒网络

最新推荐文章于 2023-12-03 12:22:42 发布

阅读量2.9k

点赞数 4

分类专栏： Python爬虫文章标签： python 爬虫 xml xpath

本文链接：https://blog.csdn.net/pcn01/article/details/106020246

版权

本文介绍了Python的lxml模块，用于HTML和XML解析，重点讲解了XPath的常用规则，包括读取文件、节点选择、属性匹配、文本获取等功能，并给出了多个实例演示。

摘要由CSDN通过智能技术生成

Python爬虫之lxml模块

一：lxml模块简介
二：xpath常用规则
三：xpath实例

一：lxml模块简介

lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高
XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言，它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索
XPath的选择功能十分强大，它提供了非常简明的路径选择表达式，另外，它还提供了超过100个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等，几乎所有我们想要定位的节点，都可以用XPath来选择
XPath于1999年11月16日成为W3C标准，它被设计为供XSLT、XPointer以及其他XML解析软件使用

二：xpath常用规则

安装lxml模块：

pip install lxml

表达式	描述
nodename	选取此节点的所有子节点
/	从当前节点选取直接子节点
//	从当前节点选取子孙节点
.	选择当前节点
…	选取当前节点的父节点
@	选取属性
*	通配符，选择所有元素节点与元素名
@*	选取所有属性
[@attrib=‘value’]	选取给定属性具有的给定值的所有元素
[@attrib]	选取具有给定属性的所有元素
[tag]	选取所有具有指定元素的直接子节点
[tag=‘text’]	选取所有具有指定元素并且文本内容是text节点
/article/div[1]	选取属于article子元素的第一个div元素
/article/div[last()]	选取属于article子元素的最后一个div元素
/article/div[last()-1]	选取属于article子元素的倒数第二个div元素
//div[@lang]	选取所有拥有lang属性的div元素
//div[@lang=‘eng’]	选取所有lang属性为eng的div元素
/div/*	选取属于div元素的所有子节点
//*	选取所有元素
//div[@*]	选取所有带属性的title元素

2.1：读取文件解析节点

from lxml import html
etree = html.etree
text='''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">第一个</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0"><a href="link5.html">a属性</a>
     </ul>
 </div>
'''
html=etree.HTML(text) #初始化生成一个XPath解析对象
result=etree.tostring(html,encoding='utf-8')   #解析对象输出代码
print(type(html))
print(type(result))
print(result.decode('utf-8'))

输出结果：

#etree会修复HTML文本节点
<class 'lxml.etree._Element'>
<class 'bytes'>
<html><body><div>
    <ul>
         <li class="item-0"><a href="link1.html">第一个</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0"><a href="link5.html">a属性</a>
     </li></ul>
 </div>
</body></html>  # 自动加上了html,body标签

2.2 读取HTML文件进行解析

html=etree.parse('test.html',etree.HTMLParser()) #指定解析器HTMLParser会根据文件修复HTML文件中缺失的如声明信息
result=etree.tostring(html)   #解析成字节
#result=etree.tostringlist(html) #解析成列表
print(type(html))
print(type(result))
print(result)

2.3 获取所有节点

返回一个列表每个元素都是Element类型，所有节点都包含在其中

html=etree.parse('test',etree.HTMLParser())
result=html.xpath('//*')  # //代表获取子孙节点，*代表获取所有
# result=html.xpath('//li')   # 获取所有子孙节点的li节点
# result=html.xpath('//li[2]]')   # 获取所有子孙节点第二个li节点
print(result)   # 总是返回一个列表