爬虫第二章:数据处理
1、x-path简介以及工具的安装:
什么是x-path:
x-path是一种在XML和HTML文档中查找信息的语言,可用来在XML和HTML中对元素和属性进行遍历
XPath开发工具
1、Chrome插件XPath Helper。
2、Filefox插件XPath Checker
xpath语法
1、使用方式
使用//获取整个页面中的元素,然后写标签名,然后再写谓词进行提取。
//div[@class='abc']
需要注意的知识点
- /和//的区别:/带标志获取直接子节点.//代表只获取子孙节点,一般//用的比较多,当然也要视情况而定。
- contains:有时候某个属性中包含了多个值,呢么可以使用“contains“函数,实例:
//div[contains(@class,‘job_detail’)] - 谓词中的下标是从1开始的,不是从0开始的