用python进行文件编码转换gbk转utf-8,解决部分生僻字导致的转换问题

手头有一批文本文件要导入数据库,但是文件的编码格式多种多样,所以要先进行下转码,从网上找到的方法基本上都是用
chardet.detect()方法进行文件的编码识别,然后再进行对应的转换。于是写了一下的方法:
def standardized_file_encode(path):
    with open(path, "rb") as f:
        data = f.read()
    res = chardet.detect(data)
    with open(os.path.join(path), "w", encoding="utf-8") as file:
        line = str(data, encoding = res["encoding"])
        file.write(line)
这个方法,大部分文件都能够正常转换,但个别文件会报这样的错误:
UnicodeDecodeError: 'gb2312' codec can't decode byte 0x84 in position 1869: illegal multibyte sequence

定位到文件中的文字,发现某个文字去掉后就可以转成功了。查了大半天原因,发现gb2312是一个比较小的汉字编码字符集,而GBK则是他的扩展,于是想到是不是这个文件的编码是gbk而不是gb2312,反正gbk是父集,用它去解肯定不会有错,于是方法改为修改如下:

def standardized_file_encode(path):
    with open(path, "rb") as f:
        data = f.read()
    res = chardet.detect(data)
    #gb2312编码的,同一个用gbk编码解析
    if res["encoding"] == "GB2312":
        res["encoding"] = "GBK"
    with open(os.path.join(path), "w", encoding="utf-8") as file:
        line = str(data, encoding = res["encoding"])
        file.write(line)

重新运行,所有文件都顺利转换了。

但是对chardet.detect()方法不怎么信任了,不知道还有没有其他方法可以读取到文件的编码格式,先写下来备忘吧

 

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值