怎么连接两个html,如何用BeautifulSoup连接两个html文件体?

我需要将两个html文件的主体连接到一个html文件中,中间用一点任意的html作为分隔符。我有用于此目的的代码,但当我从Xubuntu 11.10(或是11.04?)升级时停止了工作到12.10,可能是由于BeautifulSoup update(我目前使用的是3.2.1;我不知道以前的版本)或vim更新(我使用vim从纯文本文件自动生成html文件)。这是代码的精简版本:from BeautifulSoup import BeautifulSoup

soup_original_1 = BeautifulSoup(''.join(open('test1.html')))

soup_original_2 = BeautifulSoup(''.join(open('test2.html')))

contents_1 = soup_original_1.body.renderContents()

contents_2 = soup_original_2.body.renderContents()

contents_both = contents_1 + "\nSEPARATOR\n" + contents_2

soup_new = BeautifulSoup(''.join(open('test1.html')))

while len(soup_new.body.contents):

soup_new.body.contents[0].extract()

soup_new.body.insert(0, contents_both)

用于测试用例的两个输入文件的主体非常简单:contents_1is\n

\nFile 1\n
\n'和contents_2is'\n
\nFile 2\n
\n'。

我希望soup_new.body.renderContents()是这两个文本之间的分隔符文本的连接,但是所有\nFile 1\n\n\nSEPARATOR\n\n

\nFile 2\n
\n',这是我在操作系统更新之前得到的结果;当前的结果是'\n<pre>\nFile 1\n</pre>\n\n<b>SEPARATOR\n</b>\n<pre>\nFile 2\n</pre>\n',这是非常无用的。

在将html作为字符串插入soup对象的主体时,如何使BeautifulSoup停止将

html文件是用vim从纯文本文件自动生成的(我使用的实际情况显然更复杂,并且涉及到自定义语法突出显示,这就是我这样做的原因)。完整的test1.html文件如下所示,而test2.html除了内容和标题之外都是相同的。

~/programs/lab_notebook_and_printing/concatenate-html_problem_2013/test1.txt.html

pre { white-space: pre-wrap; font-family: monospace; color: #000000; background-color: #ffffff; white-space: pre-wrap; word-wrap: break-word }

body { font-family: monospace; color: #000000; background-color: #ffffff; font-size: 0.875em }

 
 

File 1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值