xpath解析栗子

最新推荐文章于 2023-09-21 16:36:56 发布

雄非本熊

最新推荐文章于 2023-09-21 16:36:56 发布

阅读量251

点赞数

分类专栏： Python 文章标签： xpath

本文链接：https://blog.csdn.net/Jeson_/article/details/116148179

版权

Python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

环境安装

pip install lxml

etree对象实例化

# 本地文件：
tree = etree.parse(文件名)
tree.xpath("xpath表达式")
# 网络数据：
tree = etree.HTML(网页内容字符串)
tree.xpath("xpath表达式")

xpath表达式

/(单斜杠)：表示的是从根节点开始定位，表示的是一个层级。
//(双斜杠)：表示的是多个层级。可以表示从任意位置开始定位。
属性定位：//div[@class=‘song’] tag[@attrName=“atrrValue”]
索引定位：//div[@class=‘song’] /p[3] （PS：索引是从1开始的）
取文本：
/text() 获取的是标签中直系的文本内容
//text() 标签
取属性：
/@attrName

属性定位：
    #找到class属性值为acct的div标签
    //div[@class="acct"] 
层级&索引定位：
    #找到class属性值为acct的div的直系子标签ul下的第二个子标签li下的直系子标签a
    //div[@class="acct"]/ul/li[2]/a
逻辑运算：
    #找到href属性值为空且class属性值为acct的a标签
    //a[@href="" and @class="acct"]
模糊匹配：
	#模糊查询class属性含有a的div标签
    //div[contains(@class, "a")]
    #找到class属性值以ac开头的div标签
    //div[starts-with(@class, "ac")]
取文本：
    # /表示获取某个标签下的文本内容
    # //表示获取某个标签下的文本内容和所有子标签下的文本内容
    //div[@class="song"]/p[1]/text()
    //div[@class="tang"]//text()
取属性：
    //div[@class="tang"]//li[2]/a/@href

雄非本熊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
xpath解析栗子

环境安装pip install lxmletree对象实例化# 本地文件：tree = etree.parse(文件名)tree.xpath("xpath表达式")# 网络数据：tree = etree.HTML(网页内容字符串)tree.xpath("xpath表达式")xpath表达式/(单斜杠)：表示的是从根节点开始定位，表示的是一个层级。//(双斜杠)：表示的是多个层级。可以表示从任意位置开始定位。属性定位：//div[@class=‘song’] tag[@attrN
复制链接

扫一扫

专栏目录