处理中文编码乱码

最新推荐文章于 2024-06-06 22:30:47 发布

彬-

最新推荐文章于 2024-06-06 22:30:47 发布

阅读量248

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_38102912/article/details/109433877

版权

背景

收集到一批标注数据，似乎中文的编码方式比较多。大概用 chardet检查一下，有ascill, utf-8, gbk， gb2312， gb18030。

`chardet`确定编码

f = open('test.txt', 'rb') 
data = f.readline()
f.close()
result = chardet.detect(data) 
print(result)

结果：{‘encoding’: ‘ascii’, ‘confidence’: 1.0, ‘language’: ‘’}

处理不确定编码的代码。

import os
import json

encodings = ['ascii', 'utf-8', 'gbk', 'gb2312', 'gb18030']

def json_open_encoding(json_dir, json_name, encoding_json):
    try:
        with open(os.path.join(json_dir, json_name) ,  encoding =  encoding_json) as f:
            sjson = json.load(f)
    except:
        sjson = None
    return sjson

def json_open(json_dir, json_name):
    for encoding_j in encodings:
        sjson = json_open_encoding(json_dir, json_name, encoding_j)

        if sjson is not None:
            break 
    return sjson

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

彬-

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
处理中文编码乱码

背景收集到一批标注数据，似乎中文的编码方式比较多。大概用 chardet检查一下，有ascill, utf-8, gbk， gb2312， gb18030。chardet确定编码f = open('test.txt', 'rb') data = f.readline()f.close()result = chardet.detect(data) print(result)结果：{‘encoding’: ‘ascii’, ‘confidence’: 1.0, ‘language’: ‘’}
复制链接

扫一扫