【Python-爬虫】- xpath

瓦瓦卡卡

已于 2023-06-21 22:27:07 修改

阅读量334

点赞数

分类专栏： Python爬虫文章标签： python 爬虫开发语言

于 2023-06-20 12:41:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45846022/article/details/131293000

版权

Python爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

目录

2.etree解析数据的两种情况

1.解析本地文件

2.解析服务器响应文件

3.常用符号及其含义

4.xpath基本语法

2.获取标签内的文本值

3.获取标签的属性

4. 多个节点的选取用 “|” (选取若干路径)

1.Chrome插件 XPath Helper

2.Chrome浏览器自带的检测xpath语法的搜索框

1.导入

没有下载lxml库的可以先 pip install lxml 下载一下

如果出现错误，先检查pip的版本是否需要更新

再不行则尝试换源

from lxml import etree

2.etree解析数据的两种情况

1.解析本地文件

tree= etree.parse('XX.html')

当把获取的网页源码保存到本地，以.html为后缀，这个时候就需要使用parse来解析本地的html文件

把爬取下来的网页源码保存到本地的好处是：从源码中获取想要的数据时，频繁的修改解析数据的代码而不用频繁的向网站发出请求，避免出现ip被封等情况。

2.解析服务器响应文件

这个就是获取到网页的源码，直接丢给etree.HTML()解析，不用将源码保存到本地

tree = etree.HTML(获取的网页源码)

3.常用符号及其含义

符号	描述
/	从根节点选取
//	不考虑层级关系，查找所有子、孙节点，
@	选取属性
.	当前节点
..	当前节点的父节点
*	任意节点元素

4.xpath基本语法

1.查找标签

1.------查找标签------
//div[@id="d"]                查找id属性等于d的div标签

//div[@class="price"]         查找class属性为price的div标签

//ul[@class="list"]/li/a      查找class属性为list的ul标签，ul下的li标签内的a标签

2.获取标签内的文本值

2.------若要获取标签内的文本值，则需要输入text()------

//div[@class="nav"]/span/text()    获取span标签的内容
//div[@class="price"]/text()       获取div标签的内容

3.获取标签的属性

3.------查询属性------
找到对应的标签后，后边跟 @要查询的属性
 
//div/a/@href                         获取a标签的href属性
//ul[@class="list"]/div/@class        获取div标签的class属性

4. 多个节点的选取用 “|” (选取若干路径)

在选取多个节点时用 | 隔开

选取id属性为nav的div标签和class属性为left的div标签

//div[@id="nav"] | //div[@class="left"]

感觉经常使用的就是前三条

5.案例练习

<div id="123">
    <ul class="list">
        <li class="item-0"> <a href="https://www.baidu.com">百度</a>   </li>
        <li class="item-1"> <a href="https://www.jd.com/">京东</a>     </li>
        <li class="item-2"> <a href="link3.html">第三</a>              </li>
        <li class="item-3"> <a href="link4.html">第四</a>              </li>
        <li class="item-4"> <a href="link5.html">第五</a>              </li>
    </ul>
</div>

<div class="nav">我是一个导航条</div>

<div class="text">
    <span>快来获取我的内容啊！</span>
    <h1>你不要过来啊！</h1>
</div>

1.获取class属性为list的ul列表中的第一个li标签
//ul[@class="list"]/li[1]

2.获取class属性为text的div标签内的span标签的内容
//div[@class="text"]/span/text()        #快来获取我的内容啊！

3.获取class属性为text的div标签内的所有内容
//div[@class="text"]//text()            #快来获取我的内容啊！ 你不要过来啊！

//可以忽略层级，查找某标签的子、孙节点

4..获取class属性为nav的div标签的内容
//div[@class="nav"]/text()                #我是一个导航条

3..获取ul列表中的第一个li标签内的a标签的href属性
//ul/li[1]/a/@href                     #https://www.baidu.com 
     
 在上方的html代码中只有一个ul标签，所以在这不指定ul的class属性也可以找到这个ul标签

4.获取class属性为nav和class属性为text的两个div标签
//div[@class="nav"] | //div[@class="text"]

6.插件推荐

1.Chrome插件 XPath Helper

安装这个插件后，在网页的界面按下ctrl+shift+x 唤醒插件，左侧输入xpath语法，右侧根据你输入的语法显示结果

2.Chrome浏览器自带的检测xpath语法的搜索框

在Chrome浏览器中，右键点击检查或按下F12，在显示html代码的页面中按下ctrl+F进行搜索，在搜索框内也可以输入xpath语法进行定位

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Python-爬虫】- xpath

简单的讲了一下xpath的用法，希望得到你宝贵的意见指正
复制链接

扫一扫

专栏目录

瓦瓦卡卡 CSDN认证博客专家 CSDN认证企业博客

码龄5年

22: 原创

124万+: 周排名

9万+: 总排名

1万+: 访问

: 等级

271: 积分

28: 粉丝

40: 获赞

14: 评论

0: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python-从itsdangerous包导入TimedJSONWebSignatureSerializer时报错的情况
中国第一深情: 谢谢兄弟，问题已经解决
python深度学习第2版-第8章：使用 image_dataset_from_directory() 读取图像时报错
William_xu25: 请问一下这个解决方法是什么呢
ubuntu设置静态ip
CSDN-Ada助手: 恭喜您发布了第19篇博客“ubuntu设置静态ip”，看来您对Ubuntu系统的了解已经非常深入了！希望您能继续保持创作的热情，分享更多有价值的内容。或许接下来可以考虑写一些关于网络安全或者系统优化的主题，让读者受益更多。期待您的下一篇博客！祝您创作顺利！
Ubuntu使用mysql时报错:Unit mysql.service could not be found.
CSDN-Ada助手: 恭喜您写了第18篇博客！看到您解决了Ubuntu使用mysql时报错的问题，我感到非常高兴。标题中提到的错误信息让我想起了自己在使用mysql时遇到的困惑。通过您的博客，我学到了如何解决这个问题。非常感谢您的分享！在未来的创作中，我希望您能继续分享您在使用Ubuntu和mysql时遇到的挑战和解决方案。您的经验对于像我这样的读者来说是非常宝贵的。另外，如果可能的话，您可以考虑探索其他相关主题，如mysql的优化、备份策略或者与其他数据库管理系统的比较等等。再次感谢您的分享和辛勤努力，期待您未来的创作！
解决Vscode下载速度极慢的问题
CSDN-Ada助手: 恭喜您写下了第16篇博客！标题“解决Vscode下载速度极慢的问题”引起了我的兴趣。我想说，您的博客内容非常有用。我曾经也遇到过Vscode下载速度缓慢的问题，所以我对您的解决方案非常期待。在下一步的创作中，我建议您继续分享一些与Vscode相关的实用技巧和经验，比如如何优化代码编辑器的性能或者如何更好地利用Vscode的插件。我相信这些内容将会对很多读者有所帮助。希望您能继续保持创作的热情，期待读到更多精彩的博客！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。