Python爬虫系列(6) lxml库

Python爬虫系列(6) lxml库

1.什么是lxml库?

lxml是一个HTML/XML的解析器,主要功能是如何解析和提取HTML/XML数据。

2.安装lxml

pip install lxml

3.基本使用

from lxml import etree

text ="""
<li class="hot">
                    <span class="title">工作地点:</span>
                                                            <a rel="nofollow" href="javascript:;" class="active" data-lg-tj-id="8p00" data-lg-tj-no="
                                                            0001
                                                    " data-lg-tj-cid="idnull" data-id="">全国</a>
                                                                              
                                                                                <a rel="nofollow" href="javascript:;" data-lg-tj-id="8p00" data-lg-tj-no="
                                                            0013
                                                    " data-lg-tj-cid="idnull" data-id="639" class="more-city-name">苏州</a>
                                                                                <a rel="nofollow" href="javascript:;" data-lg-tj-id="8p00" data-lg-tj-no="
                                                            0014
                                                    " data-lg-tj-cid="idnull" data-id="7" class="more-city-name">天津</a>
                                                        </li>
"""
#返回的是一个对象
html = etree.HTML(text)
print(etree.tostring(html,encoding='utf-8').decode('utf-8'))

4.从文件中读取html代码:

除了直接使用字符串进行解析,lxml还支持从文件中读取内容

下面举一个例子。

假设已经存在了一个‘’baidu.html"文件

from lxml import etree
html = etree.parse("baidu.html")
print(etree.toString(html,encoding='utf-8').decode('utf-8'))

在这里插入图片描述

直接使用parse进行解析,可能会因为html文件中的一些标签不对称进行报错。

打开parse方法,我们可以发现

在这里插入图片描述

其中parser参数可以用来指定解析器,系统默认的是xml解析器,所以会报错

在这里插入图片描述

因此,我们先设置解析器,使用etree.HTMLParser()

from lxml import etree
parser = etree.HTMLParser()
html = etree.parse('baidu.html',parser=parser)
print(etree.tostring(html,encoding='utf-8').decode('utf-8'))
#html可以直接使用xpath方法进行数据查找
html.xpath('//div')
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值