入门教程:
- W3school之XML部分
- www.spbeen.com
筆記:
----XPath是干什么的:XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。
----‘XPath’疑难点:
1:参数html的开始节点是
2:xpath的推荐开始头部分:
#绝对定位,从头开始
html.xpath(’/html’)
html.xpath(‘body’)
html.xpath(‘head’)
html.xpath(’/html/body/table/tr/td’)
#相对定位,从某个属性定位
html.xpath(’//table/tr/td’)
html.xpath(’.//table/tr/td’)------------>推荐写法
3:写法規則:
4:万一目标元素的命名中有前后空格的话xpath是识别不出来的,咋办呢?
解决办法:contains的妙用
原始方法:
print(html.xpath('.//div[@class="three"]/text()')):
用contains改进:
print(html.xpath('.//div[contains(@class,"three")]/text()'))
5:还可以在条件处用与、或、非等逻辑操作,两个中括号代表与
6:xpath尽可能越短越好,越精简越好,不要搞得太复杂太长了,实在不行就分块写!
7:xpath里面索引采用具体的下标值是不太稳妥的,推荐采用position()定位函数,用大小来比较位置
8:取末位置的值:last(),父级标签的最后一个子级,也可以说是当前同级标签的最后一个