追加 html字符串,如何在python中将HTML字符串拆分为较短的HTML字符串？（添加了一些穿插的东西）...-CSDN博客

本文探讨了一种将长HTML字符串按段落标记分割的方法，并讨论了如何确保标签完整性和文本正确分割的技术挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

我在这件事上有点困难

编辑：我把这个编辑放在最上面：如果有人想阅读这个问题或更多，你是非常欢迎的，我开始解决是一个很难解决的问题，但进入一个新的问题，我的想法是返回所有的长HTML页面除以段落(“p”标记)。在这里，每件事都是有效的，当我断言错误的时候，我会得到我想要的一切。然后在模板中，我查看了我在响应中发送的列表，对于每个值(一个段落)，现在我创建了一个div(书中的一个页面)，这里是问题所在。每一段我都要读三遍！以下代码…assert (part of it):

The Ten Foot Stop

NEWS AND OCCASIONAL ITEMS

ABOUT THE MEDICAL ASPECTS OF SCUBA DIVING.

POSTED BY ERN CAMPBELL, MD

template:

{% for article_page in article_pages %}

{% if article_page %}

{% endif %}

{% endfor %}

show this in page:

[The Ten Foot Stop, The Ten Foot Stop, The Ten Foot Stop]

以下是我的原始帖子，所有问题描述：

我有一个很长的类似HTML的字符串(没有头或体和东西，但有标记和样式，img标记和其他所有东西在其中)，我需要将字符串按字数拆分成更小的字符串(需要字符串适合特定大小的div-假设每165个单词或多或少，甚至更好地适合一定的高度吗尺寸-但我认为第二个要复杂得多)。在

我遇到的问题是，我尝试了所有的方法，包括beauthoulsoup和其他方法，但我无法找到一种方法来分割字符串，同时保证标签的安全。。。。例如，如果我有一个样式标记，并且stag从160个字符开始，然后转到170个字符，那么第二个页面(div)将把样式作为一个常规字符串来处理，而beautifulGroup只关闭我看到的“bad”标记，而不打开第二个/第三个div中的“bad”文本的标记，依此类推。。。。在

考虑使用文本.py，但顾名思义，这只会截断单词，不会将其余文本保存到下一页(或者我错了吗)？在

有人知道怎么做吗？在

好吧，慢慢来搞清楚，我会出版的，我觉得人们需要这种东西。下一步是，我用标记(在我的例子中，每个html“p”标记)来分解html字符串。现在我如何计算标签中的文本和文本？(请注意，标记可能有环绕文本的子标记，也可能有多个子标记，例如：

bcd只需要返回计数2-tap中的两个单词)？

10倍，

埃雷斯