python中数据集的处理_无法在python中处理整个数据集-问答-阿里云开发者社区-阿里云...

作者尝试从2100个相同格式的文件中抓取数据并将其写入CSV文件,在处理少量文件时一切正常,但在处理整个数据集时遇到了UnicodeDecodeError错误。

我有一个大约2100个相同格式文件的数据集,我正在从中抓取一些数据。我运行了以下代码来获取scanfile函数生成的字典,并将其写入csv文件

def createtable():

x = os.listdir('./dataset')

with open('data.csv', mode='w') as csv_file:

fieldnames = ['name', 'Error', 'val1', 'val2']

writer = csv.DictWriter(csv_file, fieldnames=fieldnames)

writer.writeheader()

for i in range(1400, 1500):

writer.writerow(scanFile(x[i]))

当我这样做的范围小于300,我创建了我想要的csv文件成功,但当我试图做整个事情,我得到这个错误…

(result, consumed) = self._buffer_decode(data, self.errors, final)

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 3131: invalid start byte

我如何解决这个问题?我真的不知道如何开始修复它,因为它适用于小的测试用例,但是在更大的范围内失败了。 问题来源StackOverflow 地址:/questions/59383176/unable-to-process-entire-dataset-in-python

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值