python筛选csv列中字符大于_Python处理csv文件以删除大于3个字节的unicode字符

我使用的是python2.7.5,并尝试获取一个现有的CSV文件并对其进行处理以删除大于3个字节的unicode字符。(把这个发给机械土耳其人,这是亚马逊的限制。)# -*- coding: utf-8 -*-

import csv

import re

re_pattern = re.compile(u'[^\u0000-\uD7FF\uE000-\uFFFF]', re.UNICODE)

ifile = open('sourcefile.csv', 'rU')

reader = csv.reader(ifile, dialect=csv.excel_tab)

ofile = open('outputfile.csv', 'wb')

writer = csv.writer(ofile, delimiter=',', quotechar='"', quoting=csv.QUOTE_ALL)

#skip header row

next(reader, None)

for row in reader:

writer.writerow([re_pattern.sub(u'\uFFFD', unicode(c).encode('utf8')) for c in row])

ifile.close()

ofile.close()

我正在获取此错误:

^{pr2}$

因此,它确实正确地遍历了一些行,但是当到达奇怪的unicode字符时,它会停止。在

我真的很感谢你的指点,我完全搞不懂。我已经用'latin1'和unicode(c)替换了'utf8'。编码为unicode(c)。解码,我一直得到同样的错误。在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值