多个html做成一个文件,将多个html文件中的文本拼凑为一个csv文件

最新推荐文章于 2022-07-28 12:26:48 发布

weixin_39940957

最新推荐文章于 2022-07-28 12:26:48 发布

阅读量162

点赞数

文章标签：多个html做成一个文件

我刚刚超过1500个html页面(1.html到1500.html)。我使用Beautiful Soup编写了一个代码，该代码提取了我需要的大部分数据，但是“遗漏”了表中的一些数据。将多个html文件中的文本拼凑为一个csv文件

我输入：如文件1500.html

我的代码：

#!/usr/bin/env python

import glob

import codecs

from BeautifulSoup import BeautifulSoup

with codecs.open('dump2.csv', "w", encoding="utf-8") as csvfile:

for file in glob.glob('*html*'):

print 'Processing', file

soup = BeautifulSoup(open(file).read())

rows = soup.findAll('tr')

for tr in rows:

cols = tr.findAll('td')

#print >> csvfile,"#".join(col.string for col in cols)

#print >> csvfile,"#".join(td.find(text=True))

for col in cols:

print >> csvfile, col.string

print >> csvfile, "==="

print >> csvfile, "***"

输出：

一个CSV文件，以1500行文本和列数据。出于某种原因，我的代码不会提取所有需要的数据，但会“遗漏”一些数据，例如表格开始处的地址1和地址2数据不会出现。我修改了代码以放入*和===分隔符，然后使用perl将其放入一个干净的csv文件，不幸的是我不知道如何处理我的代码以获取所需的所有数据！

2011-01-11

Lulu

weixin_39940957

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
多个html做成一个文件,将多个html文件中的文本拼凑为一个csv文件

我刚刚超过1500个html页面(1.html到1500.html)。我使用Beautiful Soup编写了一个代码，该代码提取了我需要的大部分数据，但是“遗漏”了表中的一些数据。将多个html文件中的文本拼凑为一个csv文件我输入：如文件1500.html我的代码：#!/usr/bin/env pythonimport globimport codecsfrom BeautifulSoup i...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。