前言
前面已经学习了requests和beautifulsoup库的知识,大家可以看Python中Requests库的用法,Python中Beautiful Soup的用法,今天再来学习一下用一种网页解析的库lxml。
lxml是Python语言里和XML以及HTML工作的功能最丰富和最容易使用的库。lxml是为libxml2和libxslt库的一个Python化的绑定。它与众不同的地方是它兼顾了这些库的速度和功能完整性,以及纯Python API的简洁性,大部分与熟知的ElementTree API兼容但比之更优越。
lxml库的安装
pip install lxml
利用 pip 安装即可
lxml库的简单用法
首先我们利用它来解析 HTML 代码,先来一个小例子来感受一下它的基本用法。
from lxml import etree
text = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="