Python爬虫系列(6) lxml库

最新推荐文章于 2023-08-14 12:59:54 发布

The_North

最新推荐文章于 2023-08-14 12:59:54 发布

阅读量397

点赞数

分类专栏： Python爬虫

本文链接：https://blog.csdn.net/LoveStarbucks/article/details/104244517

版权

Python爬虫专栏收录该内容

15 篇文章 1 订阅

订阅专栏

Python爬虫系列(6) lxml库

1.什么是lxml库？

lxml是一个HTML/XML的解析器，主要功能是如何解析和提取HTML/XML数据。

2.安装lxml

pip install lxml

3.基本使用

from lxml import etree

text ="""
<li class="hot">
                    <span class="title">工作地点：</span>
                                                            <a rel="nofollow" href="javascript:;" class="active" data-lg-tj-id="8p00" data-lg-tj-no="
                                                            0001
                                                    " data-lg-tj-cid="idnull" data-id="">全国</a>
                                                                              
                                                                                <a rel="nofollow" href="javascript:;" data-lg-tj-id="8p00" data-lg-tj-no="
                                                            0013
                                                    " data-lg-tj-cid="idnull" data-id="639" class="more-city-name">苏州</a>
                                                                                <a rel="nofollow" href="javascript:;" data-lg-tj-id="8p00" data-lg-tj-no="
                                                            0014
                                                    " data-lg-tj-cid="idnull" data-id="7" class="more-city-name">天津</a>
                                                        </li>
"""
#返回的是一个对象
html = etree.HTML(text)
print(etree.tostring(html,encoding='utf-8').decode('utf-8'))

4.从文件中读取html代码：

除了直接使用字符串进行解析，lxml还支持从文件中读取内容

下面举一个例子。

假设已经存在了一个‘’baidu.html"文件

from lxml import etree
html = etree.parse("baidu.html")
print(etree.toString(html,encoding='utf-8').decode('utf-8'))

在这里插入图片描述

直接使用parse进行解析，可能会因为html文件中的一些标签不对称进行报错。

打开parse方法，我们可以发现

在这里插入图片描述

其中parser参数可以用来指定解析器，系统默认的是xml解析器，所以会报错

在这里插入图片描述

因此，我们先设置解析器，使用etree.HTMLParser()

from lxml import etree
parser = etree.HTMLParser()
html = etree.parse('baidu.html',parser=parser)
print(etree.tostring(html,encoding='utf-8').decode('utf-8'))
#html可以直接使用xpath方法进行数据查找
html.xpath('//div')

The_North

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫系列(6) lxml库

Python爬虫系列(6) lxml库1.什么是lxml库？lxml是一个HTML/XML的解析器，主要功能是如何解析和提取HTML/XML数据。2.安装lxmlpip install lxml3.基本使用from lxml import etreetext ="""<li class="hot"> <span class...
复制链接

扫一扫

专栏目录