在Windows环境下利用R语言进行数据分析有时会碰到utf-8等编码的问题,这会导致在读入、处理的过程中出错或者乱码。我们尝试使用现有的一些软件比如说sublime text或者excel本身进行编码转换到gbk编码,但是有的时候会因为有的字符无法进行字符转码使得转换失败。因此我们尝试自己利用程序实现文件的转码。
我们先来看下面的示例,假设我们的csv文件是"utf-8"的编码,我们想要把它转换成"gbk"编码。假设我们的文件一共有九列。代码如下:
import csv
import pandas as pd
file1 = "source.csv"
file2 = "dest.csv"
fb1 = open(file1, mode = 'r', encoding = 'utf-8')
fb2 = open(file2, mode = 'w', encoding = 'gbk', newline = "")
reader = csv.reader(fb1)
writer = csv.writer(fb2)
# take column number = 9 as an example
content = [[] for i in range(0, 9)]
# which row are we in
row_num = 0
# iteratively read the rows
for rows in reader:
# skip the first row
if ro