把Kaggle上的.csv数据集翻译为中文

最新推荐文章于 2024-05-18 17:06:59 发布

@一个小菜鸡

最新推荐文章于 2024-05-18 17:06:59 发布

阅读量1.1k

点赞数 2

文章标签： excel python 数据分析

本文链接：https://blog.csdn.net/XXisCC/article/details/130328702

版权

首先来看看待翻译的.csv数据集：
这是用excel打开的样子
在这里插入图片描述
这是用记事本打开的样子

这里我直接用的搜狗翻译，因为可以直接上传.csv文件，翻译完之后会返回.xlsx文件
这是用excel打开的样子

乍一看没毛病，但是一放到程序里运行就报错了，用记事本打开发现乱码了
在这里插入图片描述
网上查了许多办法，包括用记事本打开，更换编码格式然后再另存为一个新文件，直接改成.csv后缀名……都不行
千辛万苦的尝试下，终于找到了解决方案
第一步，用excel打开文件，点击左上角文件

第二步，点击另存为
在这里插入图片描述
第三步，确定好保存路径后，下拉保存类型，选择CSV UTF-8保存

最后再用记事本打开，发现没有乱码了，但是新的问题出现了，每行末尾多出了许多，，不过，好歹文本能正常显示了，下一步就是如何把每一行末尾的，全部取出，为此，我写了一个简单的python程序，代码如下：

if __name__ == '__main__':
    with open('excel译文.csv', 'r',encoding='utf-8') as f,open("result.csv",'a',encoding='utf-8')as file:
        while True:
            out = f.readline().strip()
            n = len(out)
            # new_out = out.replace("，" , "+++")
            count = 0
            for i in range(n - 1, -1, -1):
                if (out[i] == ","):
                    count += 1
                else:
                    break
            new_s = out[0:n - count]
            if not out:
                break
            file.write(new_s+"\n")
            print(new_s)