我需要将两个html文件的主体连接到一个html文件中,中间用一点任意的html作为分隔符。我有用于此目的的代码,但当我从Xubuntu 11.10(或是11.04?)升级时停止了工作到12.10,可能是由于BeautifulSoup update(我目前使用的是3.2.1;我不知道以前的版本)或vim更新(我使用vim从纯文本文件自动生成html文件)。这是代码的精简版本:from BeautifulSoup import BeautifulSoup
soup_original_1 = BeautifulSoup(''.join(open('test1.html')))
soup_original_2 = BeautifulSoup(''.join(open('test2.html')))
contents_1 = soup_original_1.body.renderContents()
contents_2 = soup_original_2.body.renderContents()
contents_both = contents_1 + "\nSEPARATOR\n" + contents_2
soup_new = BeautifulSoup(''.join(open('test1.html')))
while len(soup_new.body.contents):
soup_new.body.contents[0].extract()
soup_new.body.insert(0, contents_both)
用于测试用例的两个输入文件的主体非常简单:contents_1is\n
\nFile 1\n\n'和contents_2is'\n
\nFile 2\n\n'。
我希望soup_new.body.renderContents()是这两个文本之间的分隔符文本的连接,但是所有\nFile 1\n\n\nSEPARATOR\n\n
\nFile 2\n\n',这是我在操作系统更新之前得到的结果;当前的结果是'\n<pre>\nFile 1\n</pre>\n\n<b>SEPARATOR\n</b>\n<pre>\nFile 2\n</pre>\n',这是非常无用的。
在将html作为字符串插入soup对象的主体时,如何使BeautifulSoup停止将
html文件是用vim从纯文本文件自动生成的(我使用的实际情况显然更复杂,并且涉及到自定义语法突出显示,这就是我这样做的原因)。完整的test1.html文件如下所示,而test2.html除了内容和标题之外都是相同的。
~/programs/lab_notebook_and_printing/concatenate-html_problem_2013/test1.txt.htmlpre { white-space: pre-wrap; font-family: monospace; color: #000000; background-color: #ffffff; white-space: pre-wrap; word-wrap: break-word }
body { font-family: monospace; color: #000000; background-color: #ffffff; font-size: 0.875em }
File 1