lxml库丨Python爬虫基础入门系列(6)

【福利+1】lxml库,可以快速的定位特定元素以及节点信息,提取出 HTML、XML 目标数据。在学Python爬虫的老铁们,戳进来看看,说不定对你有用噢~
摘要由CSDN通过智能技术生成

提示:文末有福利!最新Python爬虫资料/学习指南>>戳我直达


前言

简述
lxml 是一种使用 Python 编写的库,可以迅速、灵活地处理 XML ,支持 XPath (XML Path Language)


话不多说,开始学习
在这里插入图片描述

lxml库

学习目的

利用系列(5)中涉及到的XPath语法,来快速的定位特定元素以及节点信息,目的是:提取出 HTML、XML 目标数据

如何安装

  • Ubuntu
sudo apt-get install libxml2-dev libxslt1-dev python-dev
sudo apt-get install zlib1g-dev
sudo apt-get install libevent-dev
sudo pip install lxml

利用 pip 安装即可

  • Windows:
    在Windows环境下的安装lxml方法(只要是.whl文件都用此方法)

方法一:在cmd中输入 pip install lxml
如果成功就不用看方法二

方法二:1、先在cmd中 输入 pip install wheel
因为要安装wheel库才可以安装.whl文件(因为lxml文件是.whl文件)
2、在cmd中输入pip debug --verbose
在这里插入图片描述
3、打开链接> http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
下载对应版本Lxml 我下载的是lxml‑4.8.0‑cp39‑cp39‑win_amd64.whl
在这里插入图片描述
然后在你下载此文件的目录下,
打开powershell 输入pip install lxml-4.8.0-cp39-cp39-win_amd64.whl
在IDLE模式下输入import lxml没有报错就成功了

初步使用

首先我们利用lxml来解析 HTML 代码,先来一个小例子来感受一下它的基本用法。

使用 lxml 的 etree 库,然后利用 etree.HTML 初始化,然后我们将其打印出来。

from lxml import etree
text = '''
<div>
  <ul>
       <li class="item-0"><a href="link1.html">first item</a></li>
       <li class="item-1"><a href="link2.html">second item</a></li>
       <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>
       <li class="item-1"><a href="link4.html">fourth item</a></li>
       <li class="item-0"><a href="link5.html">fifth item</a>
   </ul>
</div>
'''
#Parses an HTML document from a string
html = etree.HTML(text)   
#Serialize an element to an encoded string representation of its XML tree
result = etree.tostring(html)
print result

所以输出结果是这样的

  • 9
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值