XPath解析库的基本用法
XPath介绍
XPath全称XML Path Language(XML路径语言),是一门在XML文档中查找信息的语言,同样可查找HTML文档.
所以在写爬虫时可使用XPath来做相应的信息提取. (使用XPath需安装lxml库)
XPath常用规则
- // 从当前节点选取子孙节点
- / 从当前节点选取直接子节点
- . 选取当前节点
- … 选取当前节点的父节点
- @ 选取属性
基本用法
- 构造XPath解析对象
from lxml import etree
text = '''一段HTML文本'''
html = etree.HTML(text) #html即为XPath解析对象
#也可导入文件
html = etree.parse('html文件位置',etree.HTMLParser())
- 选取所有节点
用//开头的XPath规则选取所有符合要求的节点,得到的结果是一个列表.
result = html.xpath('//*')