265day(lxml用法)

最新推荐文章于 2021-11-21 12:52:39 发布

orangecloudy

最新推荐文章于 2021-11-21 12:52:39 发布

阅读量177

点赞数

《2018年7月2日》【连续265天】

标题：lxml用法；

内容：

例：

from lxml import etree
text = '''
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
'''
html = etree.HTML(text)
result = etree.tostring(html)
print(result)

首先我们使用 lxml 的 etree 库，然后利用 etree.HTML 初始化，然后我们将其打印出来。

其中，这里体现了 lxml 的一个非常实用的功能就是自动修正 html 代码，大家应该注意到了，最后一个 li 标签，其实我把尾标签删掉了，是不闭合的。不过，lxml 因为继承了 libxml2 的特性，具有自动修正 HTML 代码的功能。

所以输出结果是这样的：

<html><body>
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
 </div>
 
</body></html>

文件读取：

利用 parse 方法来读取文件。

from lxml import etree
html = etree.parse('hello.html')
result = etree.tostring(html, pretty_print=True)
print(result)

（1）获取所有的 <li> 标签：

result = html.xpath('//li')

etree.parse 的类型是 ElementTree，通过调用 xpath 以后，得到了一个列表，包含了 5 个 <li> 元素，每个元素都是 Element 类型

（2）获取 <li> 标签的所有 class

result = html.xpath('//li/@class')

['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0']

（4）获取 <li> 标签下的所有 <span> 标签

因为 / 是用来获取子元素的，而 <span> 并不是 <li> 的子元素，所以，要用双斜杠

result = html.xpath('//li//span')

（5）获取 <li> 标签下的所有 class，不包括 <li>

result = html.xpath('//li/a//@class')

（6）获取最后一个 <li> 的 <a> 的 href

result =html.xpath('//li[last()]/a/@href')

（7）获取倒数第二个元素的内容

result = html.xpath('//li[last()-1]/a')

（8）获取 class 为 bold 的标签名

result = html.xpath('//*[@class="bold"]')

orangecloudy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫