爬虫（五）Lxml库和Xpath语法及其使用

最新推荐文章于 2024-05-20 11:31:07 发布

超级无敌吉士堡

最新推荐文章于 2024-05-20 11:31:07 发布

阅读量972

点赞数 1

分类专栏： Python 爬虫文章标签： Python 爬虫

本文链接：https://blog.csdn.net/weixin_41169182/article/details/88676729

版权

Lxml库和Xpath语法及其使用

lxml库
lxml语法
lxml的一些小坑
使用lxml爬取代理IP

lxml库

lxml库是我用起来最舒服的一个库了。
lxml库安装:pip install lxml。
进入环境from lxml import etree，如果没有报错，那就安装好了。
lxml相比BeautifulSoup最大的优点就是速度快
etree可以把HTML文档解析为Element对象
具体操作如下:

import requests
from lxml import etree

headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'
        }

res = requests.get('https://www.bilibili.com/',headers = headers)
html = etree.parse(res.text)
print(type(html))

lxml库还有着许多妙用，比如说，自动修正HTML代码。
如果读取的HTML文件缺了闭合标签，它会自动给我们补上。

from lxml import etree
text = '''
<div>
    <ul>
        <li><h1>我
        <li><h2>非
        <li><h3>常
        <li><h4>帅
        
'''
html = etree.HTML(text)
resu