Python的html导出表格,Python BeautifulSoup从保存的HTML网页中提取表格

最新推荐文章于 2022-10-13 10:07:05 发布

诺唯

最新推荐文章于 2022-10-13 10:07:05 发布

阅读量478

点赞数

文章标签： Python的html导出表格

我想从使用Python 2.7 + Windows保存的HTML网页中提取数据。Python BeautifulSoup从保存的HTML网页中提取表格

有多个保存的HTML网页，它们是相似的，每个包含一个5列的表格。行数不固定。

源代码如下所示：

text = '''


	Supplier Code (Count=6, Record Count:86) (next page)
Â	3617	German	EU	2012	2013
Â	3617	Belgium	EU	2014	2015

…

'''

我要的是把表的内容，并把/它们保存在.xls文件。

我要做的就是：

soup = BeautifulSoup(text)

aa = soup.find_all('table')[0].tbody.find_all('tr')

for a in aa:

print a.text

它给所有的内容，但都在1线。

我想：

aa = soup.find_all(id = 'MainTable')

for a in aa:

for b in a.find_all(id = 'Row2'):

print b.text

它给出了具体的行的内容，但仍然在1号线。

3617BelgiumEU20142015

这是不够的，HTML文件中的行数不确定也是一个问题。

我想要的是“3617”，“比利时”，“欧盟”，“2014”和“2015”，以便我可以将它们保存在.xls文件中。

什么是最好的方式来提取表很好？

2015-07-22

Mark K

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注