lxml.etree 教程5：Using XPath to find text

最新推荐文章于 2022-12-13 11:40:05 发布

Vincen??

最新推荐文章于 2022-12-13 11:40:05 发布

阅读量88

点赞数

另外一个获取树里面文本内容的方法是XPath，它一样可以把文本内容提取到列表中。

>>> print(html.xpath("string()")) # lxml.etree only!
TEXTTAIL
>>> print(html.xpath("//text()")) # lxml.etree only!
['TEXT', 'TAIL']

如果你比较频繁使用这个方式，可以包装成一个函数。

>>> build_text_list = etree.XPath("//text()") # lxml.etree only!
>>> print(build_text_list(html))
['TEXT', 'TAIL']

注意到一个XPath返回的字符串结果是一个特殊的“聪明”的对象，它知道它来自何处。

>>> texts = build_text_list(html)
>>> print(texts[0])
TEXT
>>> parent = texts[0].getparent()
>>> print(parent.tag)
body

>>> print(texts[1])
TAIL
>>> print(texts[1].getparent().tag)
br

你也可以找出它常规的文本内容或尾部文本:

>>> print(texts[0].is_text)
True
>>> print(texts[1].is_text)
False
>>> print(texts[1].is_tail)
True

>>> stringify = etree.XPath("string()")
>>> print(stringify(html))
TEXTTAIL
>>> print(stringify(html).getparent())
None

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Vincen??

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lxml.etree 教程5：Using XPath to find text

另外一个获取树里面文本内容的方法是XPath，它一样可以把文本内容提取到列表中。&gt;&gt;&gt; print(html.xpath("string()")) # lxml.etree only!TEXTTAIL&gt;&gt;&gt; print(html.xpath("//text()")) # lxml.etree only!['TEXT', 'TAIL']...
复制链接

扫一扫