我有一个大约2100个相同格式文件的数据集,我正在从中抓取一些数据。我运行了以下代码来获取scanfile函数生成的字典,并将其写入csv文件
def createtable():
x = os.listdir('./dataset')
with open('data.csv', mode='w') as csv_file:
fieldnames = ['name', 'Error', 'val1', 'val2']
writer = csv.DictWriter(csv_file, fieldnames=fieldnames)
writer.writeheader()
for i in range(1400, 1500):
writer.writerow(scanFile(x[i]))
当我这样做的范围小于300,我创建了我想要的csv文件成功,但当我试图做整个事情,我得到这个错误…
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 3131: invalid start byte
我如何解决这个问题?我真的不知道如何开始修复它,因为它适用于小的测试用例,但是在更大的范围内失败了。 问题来源StackOverflow 地址:/questions/59383176/unable-to-process-entire-dataset-in-python
作者尝试从2100个相同格式的文件中抓取数据并将其写入CSV文件,在处理少量文件时一切正常,但在处理整个数据集时遇到了UnicodeDecodeError错误。
4374

被折叠的 条评论
为什么被折叠?



