目录大纲
-
- 前提
- 1. xpath练习
-
- 1.1 nodename
- 1.2 /
- 1.3 //
- 1.4 .
- 1.5 ..
- 1.6 @
- 1.7 /bookstore/book[1]
- 1.8 /bookstore/book[last()]
- 1.9 /bookstore/book[last()-1]
- 1.10 /bookstore/book[position()<3]
- 1.11 //title[@lang]
- 1.12 //title[@lang="eng"]
- 1.13 *
- 1.14 @*
- 1.15 node()
- 1.16 /bookstore/*
- 1.17 //*
- 1.18 html/node()/meta/@*
- 1.19 //title[@*]
- 1.20 //book/title | //book/price
- 1.21 //title | //price
- 1.22 /bookstore/book/title | //price
- 1.23 //*[text()=“x’x’x”]
- 1.24 //*[starts-with(@attribute,"xxx")]
- 1.25 //*[contains(@attribute,"xxxxx")]
- 1.26 //*[@attribute1=value1 and @attribute2=value2]
- 2. css选择器练习
前提
使用火狐浏览器,并安装了对应的插件后进行下面的练习
1. xpath练习
以搜狗搜索为例
https://www.sogou.com/
1.1 nodename
nodename表示根节点,也就是说在抓取任何一个节点时都要从根节点开始找
1.2 /
从根节点选取
1.3 //
从匹配选择的当前节点选择文档中的节点,而不考虑他们的位置
1.4 .
选取当前节点
1.5 …
选取当前节点的父节点
1.6 @
选取属性
1.7 /bookstore/book[1]
选取属于bookstore子元素的第一个book元素
1.8 /bookstore/book[last()]
选取属于bookstore子元素的最后一个book元素
1.9 /bookstore/book[last()-1]
选取属于bookstore子元素的倒数第二个book元素
1.10 /bookstore/book[position()❤️]
选取最前面的两个属于bookstore元素的子元素的bo