多个html做成一个文件,将多个html文件中的文本拼凑为一个csv文件

我刚刚超过1500个html页面(1.html到1500.html)。我使用Beautiful Soup编写了一个代码,该代码提取了我需要的大部分数据,但是“遗漏”了表中的一些数据。将多个html文件中的文本拼凑为一个csv文件

我输入:如文件1500.html

我的代码:

#!/usr/bin/env python

import glob

import codecs

from BeautifulSoup import BeautifulSoup

with codecs.open('dump2.csv', "w", encoding="utf-8") as csvfile:

for file in glob.glob('*html*'):

print 'Processing', file

soup = BeautifulSoup(open(file).read())

rows = soup.findAll('tr')

for tr in rows:

cols = tr.findAll('td')

#print >> csvfile,"#".join(col.string for col in cols)

#print >> csvfile,"#".join(td.find(text=True))

for col in cols:

print >> csvfile, col.string

print >> csvfile, "==="

print >> csvfile, "***"

输出:

一个CSV文件,以1500行文本和列数据。出于某种原因,我的代码不会提取所有需要的数据,但会“遗漏”一些数据,例如表格开始处的地址1和地址2数据不会出现。我修改了代码以放入*和===分隔符,然后使用perl将其放入一个干净的csv文件,不幸的是我不知道如何处理我的代码以获取所需的所有数据!

2011-01-11

Lulu

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值