Python爬虫系列(6) lxml库
1.什么是lxml库?
lxml是一个HTML/XML的解析器,主要功能是如何解析和提取HTML/XML数据。
2.安装lxml
pip install lxml
3.基本使用
from lxml import etree
text ="""
<li class="hot">
<span class="title">工作地点:</span>
<a rel="nofollow" href="javascript:;" class="active" data-lg-tj-id="8p00" data-lg-tj-no="
0001
" data-lg-tj-cid="idnull" data-id="">全国</a>
<a rel="nofollow" href="javascript:;" data-lg-tj-id="8p00" data-lg-tj-no="
0013
" data-lg-tj-cid="idnull" data-id="639" class="more-city-name">苏州</a>
<a rel="nofollow" href="javascript:;" data-lg-tj-id="8p00" data-lg-tj-no="
0014
" data-lg-tj-cid="idnull" data-id="7" class="more-city-name">天津</a>
</li>
"""
#返回的是一个对象
html = etree.HTML(text)
print(etree.tostring(html,encoding='utf-8').decode('utf-8'))
4.从文件中读取html代码:
除了直接使用字符串进行解析,lxml还支持从文件中读取内容
下面举一个例子。
假设已经存在了一个‘’baidu.html"文件
from lxml import etree
html = etree.parse("baidu.html")
print(etree.toString(html,encoding='utf-8').decode('utf-8'))
直接使用parse进行解析,可能会因为html文件中的一些标签不对称进行报错。
打开parse方法,我们可以发现
其中parser参数可以用来指定解析器,系统默认的是xml解析器,所以会报错
因此,我们先设置解析器,使用etree.HTMLParser()
from lxml import etree
parser = etree.HTMLParser()
html = etree.parse('baidu.html',parser=parser)
print(etree.tostring(html,encoding='utf-8').decode('utf-8'))
#html可以直接使用xpath方法进行数据查找
html.xpath('//div')