lxml库的基本使用

使用入门:

  • 导入lxml的etree库  
    from lxml import etree
  • 利用etree.HTML,将字符串转换为Element对象
  • Element对象具有xpath的方法    html = etree.HTML(text)

lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。

基本使用:

可以利用它来解析HTML代码,并且在解析HTML代码的时候,如果HTML代码不规范,会自动的进行补全。示例代码如下:

# 使用 lxml 的 etree 库
from lxml import etree 

text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a> # 注意,此处缺少一个 </li> 闭合标签
     </ul>
 </div>
'''

#利用etree.HTML,将字符串解析为HTML文档
html = etree.HTML(text) 

# 按字符串序列化HTML文档
result = etree.tostring(html) 

print(result)

输入结果如下:

<html><body>
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
 </div>
</body></html>

可以看到。lxml会自动修改HTML代码。例子中不仅补全了li标签,还添加了body,html标签。

从文件中读取html代码:

除了直接使用字符串进行解析,lxml还支持从文件中读取内容。我们新建一个hello.html文件:

<!-- hello.html -->
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
 </div>

然后利用etree.parse()方法来读取文件。示例代码如下:

from lxml import etree

# 读取外部文件 hello.html
html = etree.parse('hello.html')
result = etree.tostring(html, pretty_print=True)

print(result)

总结:

  1. 解析html字符串:使用lxml.etree.HTML进行解析。示例代码如下:
    htmlElement = etree.HTML(text)
    print(etree.tostring(htmlElement,encoding='utf-8').decode("utf-8"))
    
  2. 解析html文件:使用lxml.etree.parse进行解析。示例代码如下:
    htmlElement = etree.parse("hello.html")
    print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))
    
    这个函数默认使用的是XML解析器,所以如果碰到一些不规范的HTML代码的时候就会解析错误,这时候就要自己创建HTML解析器。
    parser = etree.HTMLParser(encoding='utf-8')
    htmlElement = etree.parse("lagou.html",parser=parser)
    print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))


 

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
lxml 是一个用于处理 XMLHTML 文档的 Python ,它提供了一些方便的 API 来解析和操作这些文档。以下是 lxml基本使用方法: 1. 安装lxml,可以使用 pip 命令安装:`pip install lxml` 2. 导入lxml:`from lxml import etree` 3. 加载 XMLHTML 文档,可以使用 etree 中的 `parse()` 或 `HTML()` 方法,例如: ``` tree = etree.parse('example.xml') # 解析 XML 文档 tree = etree.HTML('example.html') # 解析 HTML 文档 ``` 4. 获取根元素,可以使用 `getroot()` 方法,例如: ``` root = tree.getroot() ``` 5. 遍历元素,可以使用 `iter()` 或 `iterfind()` 方法,例如: ``` for element in root.iter('tag'): # 处理元素 ``` 6. 获取元素的属性,可以使用 `get()` 方法,例如: ``` value = element.get('attribute_name') ``` 7. 修改元素的属性,可以使用 `set()` 方法,例如: ``` element.set('attribute_name', 'new_value') ``` 8. 获取元素的文本内容,可以使用 `text` 属性,例如: ``` value = element.text ``` 9. 修改元素的文本内容,可以直接修改 `text` 属性,例如: ``` element.text = 'new_text' ``` 10. 添加新元素,可以使用 `Element()` 方法创建新元素,并使用 `append()` 方法将其添加到文档中,例如: ``` new_element = etree.Element('tag') new_element.text = 'text' root.append(new_element) ``` 除此之外,lxml 还提供了一些高级的 API,例如 XPath 查询、XSLT 转换等,可以根据具体需求进行学习和使用

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值