beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath

最新推荐文章于 2024-05-20 21:51:57 发布

weixin_39531594

最新推荐文章于 2024-05-20 21:51:57 发布

阅读量378

点赞数

文章标签： beautifulsoup网页爬虫解析 xpath contains

解析神器Xpath：

1. 什么是Xpath

XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。
XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。
可以阅读该文档了解更多关于Xpath的知识。

2. Xpath解析网页的流程

首先通过Requests库获取网页数据
通过网页解析，得到想要的数据或者新的链接
网页解析可以通过Xpath或者其它解析工具进行，Xpath在是一个非常好用的网页解析工具

3. 常用的网页解析

正则表达式使用比较困难，学习成本较高
BeautifulSoup性能较慢，相对于Xpath较难，在某些特定场景下有用
Xpath使用简单，速度快（Xpath是lxml里面的一种），是抓取数据最好的选择

Xpath的使用：

1. 使用Xpath解析网页数据的步骤

从lxml导入etree
解析数据，返回xml结构
使用.xpath()寻找和定位数据

from

2. 获取Xpath的方法

第一种方法：从浏览器直接复制
首先在浏览器上定位到需要爬取的数据
右键，点击“检查”，在“Elements”下找到定位到所需数据
右键——Copy——Copy Xpath，即可完成Xpath的复制

第二种方法：手写Xpath

获取文本内容用 text()
获取注释用 comment()
获取其它任何属性用@xx，如：
href
src
value
想要获取某个标签下所有的文本（包括子标签下的文本），使用string
如”< p>123< a>来获取我啊< /a>< /p>”，这边如果想要得到的文本为”123来获取我啊”，则需要使用string
starts-with 匹配字符串前面相等
contains 匹配任何位置相等

附录

Xpath教程

阅读Xpath教程，掌握Xpath的基本知识

Xpath的基本使用

阅读爬虫入门到精通-网页的解析（xpath），参考Xpath的使用方法
阅读Python爬虫利器三之Xpath语法与lxml库的用法，了解更多Xpath的使用方法示例

正则表达式

阅读Python正则表达式，了解正则表达式及其基本的语法
阅读爬虫入门到精通-网页的解析（正则），学习使用正则表达式匹配网页数据

BeautifulSoup

阅读Beautiful Soup 中文教程，了解使用BeautifulSoup解析网页的方法
阅读Beautiful Soup 4.2.0 文档这篇BeautifulSoup的官方文档，了解其更加全面的用法

weixin_39531594

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
beautifulsoup网页爬虫解析_爬虫第三天——初识Xpath

解析神器Xpath：1. 什么是XpathXPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型查询语言。可以阅读该文档了解更多关于Xpath...
复制链接

扫一扫