用python进行文件编码转换gbk转utf-8，解决部分生僻字导致的转换问题

最新推荐文章于 2024-04-03 15:39:29 发布

只一刀

最新推荐文章于 2024-04-03 15:39:29 发布

阅读量5.3k

点赞数 2

文章标签： python

本文链接：https://blog.csdn.net/coreych/article/details/101270551

版权

手头有一批文本文件要导入数据库，但是文件的编码格式多种多样，所以要先进行下转码，从网上找到的方法基本上都是用
chardet.detect()方法进行文件的编码识别，然后再进行对应的转换。于是写了一下的方法：

def standardized_file_encode(path):
    with open(path, "rb") as f:
        data = f.read()
    res = chardet.detect(data)
    with open(os.path.join(path), "w", encoding="utf-8") as file:
        line = str(data, encoding = res["encoding"])
        file.write(line)

这个方法，大部分文件都能够正常转换，但个别文件会报这样的错误：
UnicodeDecodeError: 'gb2312' codec can't decode byte 0x84 in position 1869: illegal multibyte sequence

定位到文件中的文字，发现某个文字去掉后就可以转成功了。查了大半天原因，发现gb2312是一个比较小的汉字编码字符集,而GBK则是他的扩展，于是想到是不是这个文件的编码是gbk而不是gb2312，反正gbk是父集，用它去解肯定不会有错，于是方法改为修改如下：

def standardized_file_encode(path):
    with open(path, "rb") as f:
        data = f.read()
    res = chardet.detect(data)
    #gb2312编码的，同一个用gbk编码解析
    if res["encoding"] == "GB2312":
        res["encoding"] = "GBK"
    with open(os.path.join(path), "w", encoding="utf-8") as file:
        line = str(data, encoding = res["encoding"])
        file.write(line)

重新运行，所有文件都顺利转换了。

但是对chardet.detect()方法不怎么信任了，不知道还有没有其他方法可以读取到文件的编码格式，先写下来备忘吧