python处理csv文件的默认解码方式为‘gbk’(这可能是因为,中文ansi编码是gbk),但是我们在创建csv文件时,经常会选择utf-8编码,这样的文件在解码时就会报错。
如以下文件
#1.csv文件为utf-8格式
fn = open('1.csv', 'r')
a = fn.read()
print(a)
fn.close()
执行将会报错:UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0x8c in position 9: illegal multibyte sequence
解决办法有:
1,将文件改为ansi编码。一个可行的办法是另存为,编码选择ansi。此方法在文件很多是不太实用。
2.打开文件时,传递编码格式参数:
fn = open('1.csv', 'r',encoding = 'utf-8')
a = fn.read()
print(a)
fn.close()
3.打开时选择不解码,也就是以二进制打开(打开方式选择’rb’),然后手动解码(对二进制数据进行decode())。
fn = open('1.csv', 'rb')
a = fn.read()
a = a.decode()
print(a)
fn.close()
这里decode()括号内可以传递参数’utf-8’,也可以不传递,因为默认解码就是utf-8。