XPath库的用法

最新推荐文章于 2022-11-04 14:16:46 发布

VIP文章 uziwz_

最新推荐文章于 2022-11-04 14:16:46 发布

阅读量609

点赞数

分类专栏：爬虫笔记 python 文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/uziwz_/article/details/100559881

版权

XPath解析库的基本用法

XPath介绍

XPath全称XML Path Language(XML路径语言),是一门在XML文档中查找信息的语言,同样可查找HTML文档.
所以在写爬虫时可使用XPath来做相应的信息提取. (使用XPath需安装lxml库)

XPath常用规则

// 从当前节点选取子孙节点
/ 从当前节点选取直接子节点
. 选取当前节点
… 选取当前节点的父节点
@ 选取属性

基本用法

构造XPath解析对象

from lxml import etree
text = '''一段HTML文本'''
html = etree.HTML(text) #html即为XPath解析对象

#也可导入文件
html = etree.parse('html文件位置',etree.HTMLParser())

选取所有节点
用//开头的XPath规则选取所有符合要求的节点,得到的结果是一个列表.

result = html.xpath('//*')

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
XPath库的用法

XPath解析库的基本用法XPath介绍XPath全称XML Path Language(XML路径语言),是一门在XML文档中查找信息的语言,同样可查找HTML文档.所以在写爬虫时可使用XPath来做相应的信息提取. (使用XPath需安装lxml库)XPath常用规则// 从当前节点选取子孙节点/ 从当前节点选取直接子节点. 选取当前节点… 选取当前节点的父节点@ 选取...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。