爬虫的步骤解析内容xpath介绍_爬虫第三天——初识Xpath

最新推荐文章于 2024-08-24 18:11:45 发布

VS华

最新推荐文章于 2024-08-24 18:11:45 发布

阅读量174

点赞数

文章标签：爬虫的步骤解析内容xpath介绍

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36429576/article/details/111970500

版权

解析神器Xpath：

1. 什么是XpathXPath即为XML路径语言(XML Path Language)，它是一种用来确定XML文档中某部分位置的语言。

XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。

可以阅读该文档了解更多关于Xpath的知识。

2. Xpath解析网页的流程首先通过Requests库获取网页数据

通过网页解析，得到想要的数据或者新的链接

网页解析可以通过Xpath或者其它解析工具进行，Xpath在是一个非常好用的网页解析工具

3. 常用的网页解析正则表达式使用比较困难，学习成本较高

BeautifulSoup性能较慢，相对于Xpath较难，在某些特定场景下有用

Xpath使用简单，速度快(Xpath是lxml里面的一种)，是抓取数据最好的选择

Xpath的使用：

1. 使用Xpath解析网页数据的步骤从lxml导入etree

解析数据，返回xml结构

使用.xpath()寻找和定位数据

from lxml import etree

html ='''#省略'''#html数据，使用requests获取

s = etree.HTML(html)#解析html数据

print(s.xpath())#使用.xpath()

2. 获取Xpath的方法第一种方法：从浏览器直接复制

首先在浏览器上定位到需要爬取的数据

右键，点击“检查”，在“Elements”下找到定位到所需数据

右键——Copy——Copy Xpath，即可完成Xpath的复制

第二种方法：手写Xpath

获取文本内容用 text()

获取注释用 comment()

获取其它任何属性用@xx，如：

href

src

value

想要获取某个标签下所有的文本(包括子标签下的文本)，使用string

如”< p>123< a>来获取我啊< /a>< /p>”，这边如果想要得到的文本为”123来获取我啊”，则需要使用string

starts-with 匹配字符串前面相等

contains 匹配任何位置相等

附录

Xpath教程阅读Xpath教程，掌握Xpath的基本知识

Xpath的基本使用

正则表达式阅读Python正则表达式，了解正则表达式及其基本的语法

阅读爬虫入门到精通-网页的解析(正则)，学习使用正则表达式匹配网页数据

BeautifulSoup阅读Beautiful Soup 中文教程，了解使用BeautifulSoup解析网页的方法

阅读Beautiful Soup 4.2.0 文档这篇BeautifulSoup的官方文档，了解其更加全面的用法

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。