1、符号
//表示从html整个文档全局查找
/表示从根节点选取
.表示从当前节点选取
..表示从上层节点选取
2、函数
具体参考http://www.w3school.com.cn/xpath/xpath_functions.asp
常用的contains() 例如//div[contains(@class,"123")] 表示div的class属性中含有123的字符串
text(), 例如//div/text() 表示获取div直属的text节点内容,不包含间接子节点的text节点内容,如果获取整个节点的text节点内容则通过//div//text()获取
start-with 例如://div[start-with(@class,"123123")]表示匹配class属性以123123开头的div
3、特殊情况,在我们获取一个html标签内容的text文本内容内容时
<div>
你好
<span>大神</span>
</div>
如果你直接//div/text()只能获取"你好“
如果你要获取”你好大神“ ,可以用//div//text()标签,但是这样的取出的结果会出现很多\n和空格符
很好的解决方式(python版本)
info = hxs.xpath("//div")
data=info.xpath("string(.)")
这样data就是你好大神