python中标签和文本在一起，怎么提取

最新推荐文章于 2024-05-16 15:50:31 发布

绛洞花主敏明

最新推荐文章于 2024-05-16 15:50:31 发布

阅读量4.5k

点赞数 1

分类专栏：爬虫

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

针对python文本下既有标签又有文本该如何分开提取，以及提取自己需要的文本。

一、python中/text()和//text()的区别：

1、/text只是提取该标签中的文本。
2、//text提取该标签下（包括其中包含的子标签）的所有文本。

二、实验案例

在这里插入图片描述
通过截图左下角的提示可以知道，使用xpath表达式“//h1/text()”只能得到h1标签中文本的“This”和“test”，用代码实现看看：

from lxml import etree
 
html = '<html><body><h1>This <a>is a </a>test</h1></body></html>'
_element = etree.HTML(html)
text = _element.xpath('//h1/text()')
print 'result is: ', text

运行结果：

result is:  ['This ', 'test']

确实，使用xpath()方法，只能得到h1中部分文本内容，我们再试试使用“//h1//text()”看看：
在这里插入图片描述
然后通过代码实现看看：

 encoding=utf8
 
from lxml import etree
 
html = '<html><body><h1>This <a>is a </a>test</h1></body></html>'
_element = etree.HTML(html)
text = _element.xpath('//h1//text()')
print 'result is: ', text

运行结果：

result is:  ['This ', 'is a ', 'test']

通过“//h1//text()”表达式确实可以得到想要的内容，但是得到的是一个列表，还需要将列表中的所有元素“拼”起来才行，是不是有点麻烦。这时候，就可以考虑使用etree.tostring()方法了，etree.tostring()方法可以传递多个参数，包括element_or_tree、encoding、method等，其中method参数为text的时候，表示返回_Element对象中的所有文本，所以可以这样

from lxml import etree
 
html = '<html><body><h1>This <a>is a </a>test</h1></body></html>'
_element = etree.HTML(html)
# 先找到h1对象，然后通过etree.tostring方法找到h1对象中的所有文本
_h = _element.xpath('//h1')
# 注意，xpath方法返回的是一个列表，我们需要的是列表中的第一个元素：代表h1标签的_Element对象
result = etree.tostring(_h[0], method='text')
print 'result is: ', result

运行结果：

result is:  This is a test

这时候使用etree.tostring()方法是不是很容易的就解决问题了。

绛洞花主敏明

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
3
评论
python中标签和文本在一起，怎么提取

针对python文本下既有标签又有文本该如何分开提取，以及提取自己需要的文本。一、python中/text()和//text()的区别：1、/text只是提取该标签中的文本。2、//text提取该标签下（包括其中包含的子标签）的所有文本。二、实验案例通过截图左下角的提示可以知道，使用xpath表达式“//h1/text()”只能得到h1标签中文本的“This”和“test”，用代码实现...
复制链接

扫一扫