05-xpath爬虫数据解析

最新推荐文章于 2024-05-16 18:32:56 发布

gemoumou

最新推荐文章于 2024-05-16 18:32:56 发布

阅读量239

点赞数

分类专栏： python爬虫开发学习文章标签：定位 javascript css js

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37978800/article/details/108170601

版权

Xpaht数据解析
XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。
XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。
因此，对 XPath 的理解是很多高级 XML 应用的基础。
xpath学习网址：https://www.w3school.com.cn/xpath/index.asp
XPath 开发工具
Chrome插件 XPath Helper
在这里插入图片描述

环境安装
- pip install lxml
解析原理：html标签是以树状的形式进行展示
- 1.实例化一个etree对象，且将待解析的页面源码数据加载到该对象中。
- 2.调用etree对象的xpath方法结合着不同的xpath表达式实现标签的定位和数据提取
实例化etree对象
- etree.parse(‘filename’):将本地html文档加载到该对象中
- etree.HTML（‘page_text’）：网站获取的页面数据加载到该对象中
标签定位：
- xpath 语法中，整个HTML文档根节点用’/‘表示，如果我们想选择的是根节点下面的html节点，则可以在搜索框输入

/html

在这里插入图片描述

如果输入下面的表达式

/html/body/div

在这里插入图片描述

这个表达式表示选择html下面的body下面的div元素。

注意/有点像 CSS中的>, 表示直接子节点关系。

绝对路径选择
从根节点开始的，到某个节点，每层都依次写下来，每层之间用 / 分隔的表达式，就是某元素的绝对路径

上面的xpath表达式/html/body/div，就是一个绝对路径的xpath表达式，等价于 css表达式 html>body>div

相对路径选择
有的时候，我们需要选择网页中某个元素，不管它在什么位置。

比如，选择示例页面的所有标签名为 div的元素，如果使用css表达式，直接写一个 div就行了。

那xpath怎么实现同样的功能呢？ xpath需要前面加// , 表示从当前节点往下寻找所有的后代元素,不管它在什么位置。

所以xpath表达式，应该这样写：//div

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
05-xpath爬虫数据解析

Xpaht数据解析环境安装pip install lxml解析原理
复制链接

扫一扫

专栏目录

gemoumou CSDN认证博客专家 CSDN认证企业博客

码龄7年

170: 原创

23万+: 周排名

94万+: 总排名

10万+: 访问

: 等级

2106: 积分

235: 粉丝

99: 获赞

46: 评论

586: 收藏

私信

关注

热门文章

分类专栏

最新评论

GAN生成对抗网络-text to image原理与基本实现-文字转图像-11
@Wang_: 您好，完整流程有吗，小白想学习了解一下，谢谢！邮箱是2694029619@qq.com
深度学习-Tensorflow2.2-图像处理{10}-UNET图像语义分割模型-24
华清重庆-王老师: 好厉害, 模型可以自己写出来
PyTorch基础-使用卷积神经网络CNN实现手写数据集识别-07
Jesse1282: optimizer = optim.Adam(model.parameters(),lr=0.5) 学习率太大，导致训练无法收敛我改成 optimizer = optim.Adam(model.parameters())
13-爬虫之js加密，解密，混淆，逆向破解思路
weixin_48675376: 有一个大佬(嗨学编程)写了： JS反调试（反debug）前面我们都用到了Chrome 的F12去查看网页加载的过程，或者是调试JS的运行过程。这种方法用多了，网站就加了反调试的策略，只有我们打开F12，就会暂停在一个“debugger”代码行，无论怎样都跳不出去。它看起来像下面这样：在这里插入图片描述不管我们点击多少次继续运行，它一直在这个“debugger”这里，每次都会多出一个VMxx的标签，观察“Call Stack”发现它好像陷入了一个函数的递归调用。这个“debugger”让我们无法调试JS。但是关掉F12窗口，网页就正常加载了。解决这种JS反调试的方法我们称之为“反-反调试”，其策略是：通过“Call Stack”找到把我们带入死循环的函数，重新定义它。这样的函数几乎没有任何其它功能只是给我们设置的陷阱。我们可以把这个函数在“Console”里面重新定义，比如把它重新定义为空函数，这样再运行它时就什么都不做，也就不会把我们带人陷阱。在这个函数调用的地方打个“Breakpoint”。因为我们已经在陷阱里面了，所以要刷新页面，JS的运行应该停止在设置的断点处，此时该函数尚未运行，我们在Console里面重新定义它，继续运行就可以跳过该陷阱。
PyTorch基础-Adam优化器使用-06
m0_56287237: 你好，我想请问一下，我是想做优化，修改了_functional.py里面的代码，需要在adam.py这个代码里面修改些什么呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。