xpath语法常用来提取xml和html数据,通过xpath语法获取网页中我们想要的内容,其实xml和html的数据可以看成一个树形的结构,每个树有很多树枝(树枝称为节点),xpath语法提供了在树中查找不同节点的能力
<html>
<head>
<body>
##代码中<html>,<head>,<body>都可以看成是一个个节点,xpath语法可以快速的定位到html代码中的节点
</body>
</head>
</html>
在网络爬虫中通常会把爬虫获取的HTML数据使用xpath语法解析,获取我们想要的结果。
xpath语法选取节点常规用法:
// 代表从全局下,也就是从所有节点中,或者说从所有子孙元素中去查找满足条件的数据
xpath("//div") #从所有子孙元素中查找div,值得注意的是xpath语法返回的是一个列表
@代表选取属性
xpath("//a/@href") #代表获取所有a标签的href属性
. 代表从当前节点获取数据
xpath(".//a/@href") #代表获取当前a标签的href属性
/ 代表从根节点选取
xpath("/div") #从根节点上选取div节点
谓语:谓语用来查找某个特定的节点,说白了就是来帮助我们定位到想要的节点,谓语被嵌在方括号中
xpath("//div[@class='hello']") #在全局下查找class等于hello的div节点
xpath("div[last()]") #获取最后一个div元素
xpath语法个人感觉在爬虫中用的夺得大概就是这些,还是非常方便的,大家可以自己了解一下