保留文本内容html,如何在从html中提取文本时保留新行lxml.text_内容()

最新推荐文章于 2021-06-28 08:01:06 发布

阴兵序列

最新推荐文章于 2021-06-28 08:01:06 发布

阅读量191

点赞数

文章标签：保留文本内容html

我想学用呼呼。我有大量的html文档要搜索。我发现text_content()方法会产生一些有趣的问题，例如，我可能有一些文本被组织在一个表中，看起来像

banana	republic
stateless	person

当我获取原始字符串并获取树，然后使用text_content以以下方式获取文本

^{pr2}$

结果没有空格(如预期的那样)

'bananarepublicstatelessperson'

我试着用插入新行字符串。替换()myString = myString.replace('','\n')

我确认有新的生产线'

banana	republic
stateless	person

但是当我从上面运行相同的代码时，就不存在行提要了。因此，得到的text_content()与上面所示类似。

这是我的一个问题，因为我需要能够分离单词，我想我可以在每个td后添加不间断空格，行后添加换行符，以及body元素后添加d换行符等等，以获得与我的原始源代码合理一致的文本。在

我会注意到，我做了更多的测试，发现在段落标记结束后插入的换行符被保留了。但是表格中有很多文本需要我搜索。在

谢谢你的帮助

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注