目录
前言
随着请求的学习,我们已经知道了如何获取网页的html源代码了,那么接下来就是将自己想要的或者他人需要的部分找到并解析出来。
当然也别忘了,要对这些拿到了的数据进行处理,处理成一个有规律能看懂的或者他人需要的样子。
本节的重点皆在对获取的源代码进行解析的方法Xpath的一个解读。
一.Xpath简介
XPath是一种用于在XML文档中定位节点的语言,它可以用于从XML文档中提取数据,以及在XML文档中进行搜索和过滤操作。它是W3C标准的一部分,被广泛应用于XML文档的处理和分析。
XPath使用路径表达式来描述节点的位置,这些路径表达式类似于文件系统中的路径。路径表达式由一个或多个步骤(step)组成,每个步骤描述了一个节点或一组节点。步骤可以使用关系运算符(如/和//)来连接,以便描述更复杂的节点位置。
XPath还提供了一些内置函数和运算符,可以对XML文档中的数据进行操作和计算。例如,可以使用XPath的数学函数来计算节点的数值,或使用字符串函数来处理节点的文本内容。
在Python中,XPath可以使用lxml库来实现。lxml提供了一个etree模块,该模块包含了XPath的实现,可以方便地对XML文档进行解析和操作,同时支持XPath语法。
二.符号说明
表达式 | 描述 |
nodename | 选取此节点的所有子节点 |
/ | 从根节点选取(取子节点) |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置(取子孙节点) |
. | 选取当前节点 |
.. | 选取当前节点的父亲点 |
@ | 选取属性 |
三.结语
根据符号的说明我们在下一篇给出案例对豆瓣电影网的一些电影名称,电影图片进行爬取和解析。
敬请期待。