您可以在http://htql.net上使用HTQL模块。
这是您的页面的示例代码:
import urllib2
url='http://pastebin.com/yRQvz2Ww'
page=urllib2.urlopen(url).read();
query="""
1.
1.
1.
1.
1.
1.
1.
1 &tx
c1=
:colspan; t1=1 &tx;c2=
2:colspan; t2=2 &tx;c3=
3:colspan; t3=3 &tx;c4=
4:colspan; t4=4 &tx;c5=
5:colspan; t5=5 &tx;}
"""
for t in htql.query(page, query):
print('\t'.join(t));
htql.query()产生10列,包括c1,t2,c2,t2,... c5,t5。您可以使用c1..c5信息来了解t1..t5应该位于哪些单元格中。