python爬虫之lxml库

最新推荐文章于 2022-05-13 18:09:30 发布

他喵的等等我

最新推荐文章于 2022-05-13 18:09:30 发布

阅读量310

点赞数

分类专栏： python网络爬虫

本文链接：https://blog.csdn.net/nlrkbqndrhh/article/details/103160752

版权

python网络爬虫专栏收录该内容

20 篇文章 0 订阅

订阅专栏

lxml库

lxml是一个HTML/XML的解析器，主要的功能是解析和提取HTML/XML数据

lxml和正则一样，也是用C语言实现的，是一款高性能的Python HTML/XML解析器，我们可以i利用之前学习的XPath语法，来快速的定位元素及节点信息。

lxml python官方文档：http://lxml.de/index.html

需要安装C语言库，可以使用pip安装：pip install lxml

基本使用：

我们可以利用它来解析HTML代码，并且在解析HTML代码的时候，如果HTML代码不规范，它会自动地进行补全，示例代码如下：

from lxml import etree
text="""
<div>
    <ul>
         <li class="item-0"><a href="link1.html">第一个</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0"><a href="link5.html">a属性</a></li>
     </ul>
 </div>
"""
htmlElement=etree.HTML(text)
print(etree.tostring(htmlElement,encoding='utf-8').decode('utf-8'))

结果如下：

<html><body><div>
    <ul>
         <li class="item-0"><a href="link1.html">第一个</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0"><a href="link5.html">a属性</a></li>
     </ul>
 </div>
</body></html>

从文件中读取html代码

使用lxml解析HTML代码

解析html字符串，使用'lxml.etree.HTML'进行解析，示例代码如下

htmlElement = etree.HTML(text)
print(etree.tostring(htmlElement,encoding='utf-8').decode('utf-8'))

解析html文件，使用'lxml.etree.parse'进行解析，示例代码如下：

htmlElement=etree.parse("tencent.html")
print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))

这个函数默认使用的是'XML'解析器，所以如果碰到一些不规范的'HTML'代码的时候就会解析错误，这时候就要自己创建'HTML'解析器。

parser=etree.HTMLParser(encoding='utf-8')
htmlElement=etree.parse("lagou.html",parser=parser)
print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))

lxml和xpath结合使用详解

from lxml import etree
# 1. 获取所有tr标签
# 2. 获取2个tr标签
# 3. 获取所有class等于even的标签
# 4. 获取所有a标签的href属性
# 5. 获取所有的职位信息（纯文本）

parser=etree.HTMLParser(encoding='utf-8')
html=etree.parse('tencent.html',parser=parser)

# 1. 获取所有tr标签
# //tr
trs=html.xpath("//tr")
for tr in trs:
    print(etree.tostring(tr,encoding='utf-8').decode('utf-8'))

# 2. 获取第2个tr标签
trs=html.xpath("//tr[2]")
print(trs)
''''''
# 3. 获取所有class等于even的标签
trs=html.xpath("//tr[@class='even']")
for tr in trs:
    print(etree.tostring(tr,encoding='utf-8').decode('utf-8'))

# 4. 获取所有a标签的href属性
trs=html.xpath("//a/@href")
for tr in trs:
    print(tr)

# 5. 获取所有的职位信息（纯文本）
trs=html.xpath("//tr[position()>1]")
for tr in trs:
    #在某个标签下执行哦xpath()获取元素,注意加.表明在当前标签下获取
    href=tr.xpath(".//a/@href")[0]
    fullurl='http://hr.tencent.com'+ href
    title=tr.path("./td[1]/text()")[0]
    category=tr.path("./td[2]/text()")[0]
    nums = tr.path("./td[3]/text()")[0]
    address = tr.path("./td[4]/text()")[0]
    pubtime = tr.path("./td[5]/text()")[0]
    position={
        'url': fullurl,
        'title': title,
        'category': category,
        'nums':nums,
        'address': address,
        'pubtime': pubtime
    }

使用"xpath"语法，应该使用"Element.xpath"

方法，来执行xpath的选择，示例代码入下：
trs=html.xpath("//tr[position()>1]")
"xpath"返回来的要永远是一个列表

获取文本，是通过xpath下的text()函数，示例代码如下：
address=tr.xpath("./td[4]/text()")[0]

他喵的等等我

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫之lxml库

lxml库lxml是一个HTML/XML的解析器，主要的功能是解析和提取HTML/XML数据lxml和正则一样，也是用C语言实现的，是一款高性能的Python HTML/XML解析器，我们可以i利用之前学习的XPath语法，来快速的定位元素及节点信息。lxml python官方文档：http://lxml.de/index.html需要安装C语言库，可以使用pip安装：pip in...
复制链接

扫一扫