python utf 8-sig_Python利用 utf-8-sig 编码格式解决写入 csv 文件乱码问题

先举个例子,分别以不指定编码、指定编码为 utf-8、指定编码为 utf-8-sig 三种方式来做比较,再将写入 csv 文件和 txt 文件来做个对比

一、不指定编码方式,直接存入 csv 文件

import csv

with open('test.csv', 'w') as fp:

writer = csv.writer(fp)

writer.writerow(['汉语', '俄语', '韩语', '日语', '英语'])

writer.writerow(['爱你', 'люблю тебя', '사랑해요', '愛しています', 'love you'])

此时运行程序会报以下错误:

UnicodeEncodeError: 'gbk' codec can't encode character 'uc0ac' in position 14: illegal multibyte sequence

二、指定编码为 utf-8,再存入 csv 文件

接下来尝试将内容以 utf-8 编码方式存入 test.csv 文件中,可以看到除了英文,其他的全都是乱码:

import csv

with open('test.csv', 'w', encoding='utf-8') as fp:

writer = csv.writer(fp)

writer.writerow(['汉语', '俄语', '韩语', '日语', '英语'])

writer.writerow(['爱你', 'люблю тебя', '사랑해요', '愛しています', 'love you'])

三、指定编码为 utf-8-sig,再存入 csv 文件

当将编码方式换成 utf-8-sig 之后,显示为正常:

import csv

with open('test.csv', 'w', encoding='utf-8-sig') as fp:

writer = csv.writer(fp)

writer.writerow(['汉语', '俄语', '韩语', '日语', '英语'])

writer.writerow(['爱你', 'люблю тебя', '사랑해요', '愛しています', 'love you'])

四、不指定编码方式,直接存入 txt 文件

with open('test.txt','w') as fp:

fp.write('爱你, люблю тебя, 사랑해요, 愛しています, love you')

和存入 csv 文件一样,也会报以下错误:

UnicodeEncodeError: 'gbk' codec can't encode character 'uc0ac' in position 16: illegal multibyte sequence

五、指定编码为 utf-8 / utf-8-sig,再存入 txt 文件

以 utf-8 或者 utf-8-sig 编码方式存入 test.txt 文件中,内容都是完全正常的:

ith open('test.txt','w', encoding='utf-8') as fp:

fp.write('爱你, люблю тебя, 사랑해요, 愛しています, love you')

with open('test.txt','w', encoding='utf-8-sig') as fp:

fp.write('爱你, люблю тебя, 사랑해요, 愛しています, love you')

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 可以使用Python中的pandas库来实现将csv文件编码为utf-8格式的操作。具体代码如下: ```python import pandas as pd # 读取csv文件 df = pd.read_csv("your_file.csv") # 将编码格式转换为utf-8 df.to_csv("your_file_utf8.csv", encoding='utf-8', index=False) ``` 在上述代码中,我们首先使用pandas库的read_csv函数读取csv文件,并将其存储为名为df的数据框。接着,我们使用to_csv函数将数据框转换为以utf-8编码格式存储的csv文件,并将其保存在名为your_file_utf8.csv文件中。注意,在to_csv函数中,我们需要指定参数encoding为'utf-8',以确保输出文件编码格式utf-8。同时,我们也将参数index设置为False,以避免在输出文件中保存索引列。 ### 回答2: 要将csv文件编码为utf-8格式,可以使用Pythoncsv模块和codecs模块来实现。 首先,需要导入csv模块和codecs模块。然后,使用codecs模块的open函数打开csv文件,并指定使用utf-8编码。 然后,使用csv模块的reader函数读取csv文件的内容。将读取的内容按行存储到一个列表中。 接下来,在内存中创建一个新的csv文件,并使用csv模块的writer函数来写入内容。 然后,遍历之前存储的行列表,并使用writerow函数将每一行写入新的csv文件中。 最后,关闭原始csv文件和新的csv文件。 以下是示例代码: ```python import csv import codecs # 打开原始csv文件 with codecs.open('原始文件.csv', 'r', encoding='utf-8') as f: reader = csv.reader(f) rows = [row for row in reader] # 创建新的csv文件 with codecs.open('新文件.csv', 'w', encoding='utf-8') as f: writer = csv.writer(f) for row in rows: writer.writerow(row) # 关闭文件 f.close() ``` 这样,就可以将csv文件转换为utf-8格式保存为新的csv文件。注意确保原始文件的编码与指定的编码一致,以避免乱码。 ### 回答3: 要将CSV文件编码为utf-8格式,可以使用Python编程语言的csv库和codecs库。首先,导入所需的库。 ```python import csv import codecs ``` 然后,打开原始的CSV文件和新的UTF-8编码的CSV文件。 ```python with open('input.csv', 'r', encoding='utf-8-sig') as file: # 打开原始的CSV文件,使用utf-8-sig解码文本中的BOM字符 reader = csv.reader(file) rows = [row for row in reader] with codecs.open('output.csv', 'w', 'utf-8-sig') as file: # 打开新的UTF-8编码的CSV文件,使用utf-8-sig编码文本中的BOM字符 writer = csv.writer(file, delimiter=',', quotechar='"', quoting=csv.QUOTE_MINIMAL) writer.writerows(rows) ``` 在上述代码中,使用csv.reader()函数读取原始CSV文件,并使用列表推导式将其保存为一个名为rows的列表。然后,使用codecs.open()函数打开新的UTF-8编码的CSV文件,将rows中的内容写入文件中。 请注意,'input.csv'是原始的CSV文件的路径,而'output.csv'是新的UTF-8编码的CSV文件的路径。要成功运行该代码,请确保将实际的文件路径用于这些参数。 这样,CSV文件就会被编码为utf-8格式并保存在新的文件中(output.csv)。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值