XPath 是一门在 XML 文档中查找信息的语言。
简单来说,就是可以通过XPath来获取HTML中节点,这个在爬虫中是最常使用到的。因为爬虫通过request获取到的是HTML文档代码,我们需要解析才能提取里面的内容。
记录常用的方法:
语法了解:
- XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。
- / 代表从根节点开始选择。
- // 代表从匹配到的节点开始,而不用管位置,这个比较常用。
- @ 代表选择属性,类如[@class="xx"]代表选择所有类名为xx的节点。
谓语:
XPath中还存在谓语,用来查找某个特定的节点或者包含某个指定的值的节点,并且谓语被嵌在方括号中。
//span[@class="col-gray"]/text() 代表选择span中类名为"col-gray"的节点,text()是方法,
代表获取文本值。
常用的一些实例(重要):
获取节点值
"/html/body/div[@class='WEB']/text() 获取div类名为WEB的值
获取节点属性
//div[@id='WEB']/@style 获取id为WEB的div的style属性
获取节点对象
//p/span[@id='test'] 获取p标签下span标签id为test的节点对象