python 爬虫基础 Xpath lxml中etree.html和etree.parse有什么区别

最新推荐文章于 2024-07-19 16:36:18 发布

RooKiChen

最新推荐文章于 2024-07-19 16:36:18 发布

阅读量1.7k

点赞数 1

分类专栏：爬虫 python 文章标签： python

本文为博主原创文章，未经博主允许不得转载

本文链接：https://blog.csdn.net/RooKichenn/article/details/119138403

版权

python 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

爬虫

2 篇文章 0 订阅

订阅专栏

1.etree.parse直接接受一个文档，按照文档结构解析（本地文件）

test.html:
<html>
    <body>
        <ul>
            <li><a href="http//www.baidu.com">百度</a></li>
            <li><a href="http//www.sougou.com">搜狗</a></li>
            <li><a href="http//www.baihe.com">百合</a></li>
        </ul>
        <ol>
            <li><a href="wzc">wzc</a></li>
            <li><a href="kwq">kwq</a></li>
            <li><a href="baby">baby</a></li>
        </ol>
    </body>
</html>

tree = etree.parse("test.html")
# 一句话查询href
print(tree.xpath("/html/body/ul/li/a/@href"))


# 相对查询
href_list = tree.xpath("/html/body/ul/li")
for href in href_list:
    result2 = href.xpath("./a/@href")
    print(result2)

2.etree.html可以解析html文件：（服务器上返回的html数据）

url = "https://www.baidu.com/"
resp = requests.get(url)
page = etree.HTML(resp.text)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

RooKiChen

关注关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫基础 Xpath lxml中etree.html和etree.parse有什么区别

1.etree.parse直接接受一个文档，按照文档结构解析（本地文件）test.html:<html> <body> <ul> <li><a href="http//www.baidu.com">百度</a></li> <li><a href="http//www.sougou.com">搜狗</a></l
复制链接

扫一扫