介绍
XPath,全称XML Path Language,即XML路径语言,用来搜寻XML文档,也同样适用于HTML文档的搜索。所以,在做爬虫的时候,就可以使用XPath来做相应的信息抽取。python中相应的库为lxml库,需要自行安装
正文
XPath主要是有大量的方法,故我主要用代码的形式来记录。
XPath常用规则
表达式
描述
nodename
/
选取此节点的所有子节点
//
从当前节点选取直接子节点
.
选取当前节点
..
选取当前节点的父节点
@
选取属性
常用功能
from lxml import etree
text = '''
''&#