css选择器、xpath选择器、正则三种提取数据的用法:
Xpath选择器的用法:
路径表达式 | 结果 |
---|---|
/ | 从根目录开始 必须具有严格的父子关系 |
// | 从当前标签 后续节点含有即可选出 |
* | 通配符,匹配任何元素节点。 |
//div/book[1]/title | 选择div下第一个book标签的title元素 |
//div/book/title[@lang=‘zh’] | 选择title属性的含有lang且内容是zh的title元素 |
//div/book/title //book/title | 具有相同的结果,因为使用相对路径最终都指向title |
//book/title/@* | 将title所有属性值选择出来 |
//book/title/text() | 将title的内容选择出来。 |
//a[@href=“link1.html” and @id=“places_neighbours_row”] | 将符合这两种数据的所有a标签选出来 |
//div/book[last()]/title/text() | 将book最后一个元素选出 |
//div/book[price>39]/title | 将book子标签price数值大于39的选择出来 |
//li[starts-with(@class,“item”)]/a |