处理中文编码乱码

背景

收集到一批标注数据,似乎中文的编码方式比较多。 大概用 chardet检查一下,有ascill, utf-8, gbk, gb2312, gb18030。

chardet确定编码

f = open('test.txt', 'rb') 
data = f.readline()
f.close()
result = chardet.detect(data) 
print(result)

结果:{‘encoding’: ‘ascii’, ‘confidence’: 1.0, ‘language’: ‘’}

处理不确定编码的代码。

import os
import json

encodings = ['ascii', 'utf-8', 'gbk', 'gb2312', 'gb18030']

def json_open_encoding(json_dir, json_name, encoding_json):
    try:
        with open(os.path.join(json_dir, json_name) ,  encoding =  encoding_json) as f:
            sjson = json.load(f)
    except:
        sjson = None
    return sjson

def json_open(json_dir, json_name):
    for encoding_j in encodings:
        sjson = json_open_encoding(json_dir, json_name, encoding_j)

        if sjson is not None:
            break 
    return sjson

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值