xpath 是数据提取的一种常用的方法
XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。
在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。
选取节点
XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。
下面列出了最有用的路径表达式:
nodename
选取此节点的所有子节点。
/
从根节点选取。
//
从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
.
选取当前节点。
..
选取当前节点的父节点。
@
选取属性。
操作步骤:
一、引入
from lxml.html import etree
二、创建文档树
html_obj = etree.HTML(html, parser=HTMLParser(encoding='utf-8'))
def HTML(text, parser=None, base_url=None): #real signature unknown; restored from __doc__
"""HTML(text, parser=None, base_url=None)
Parses an HTML document from a string constant. Returns the root
node (or th