提取页面信息还有更强大更方便的工具—解析库。
内容简略,仅供参考
解析库之XPath
1,XPath简介,详见官网:XPath概览,推荐pip安装pip install lxml
2,常用规则:
表达式 | 描述 |
---|---|
nodename | 选取此节点的所有子节点 |
/ | 从当前节点选取直接子节点 |
// | 从当前节点选取子孙节点 |
. | 选取当前节点 |
. . | 选取当前节点的父节点 |
@ | 选取属性 |
3,运算符:
图片来源:https://www.w3school.com.cn/xpath/xpath_operators.asp
4,其他:
(1)text()方法获取文本
(2)节点轴
轴名称 | 描述 |
---|---|
attribute:: | 获取符合条件节点的属性 |
ancestor:: | 获取符合条件的祖先节点 |
child | 获取符合条件的直接子节点 |
descendant | 获取符合条件的子孙节点 |
following | 获取当前节点的子节点 |
following-sibling | 获取当前节点之后同级节点 |
5,实例代码地址:Github-xylover