NLU项目遇到的坑与解决方法----编码问题

最新推荐文章于 2023-04-03 11:45:32 发布

qq_30432757

最新推荐文章于 2023-04-03 11:45:32 发布

阅读量387

点赞数

本文链接：https://blog.csdn.net/qq_30432757/article/details/85408332

版权

python处理excel表格的时候经常会有编码问题，但是我必须吐槽一下公司的业务，能不能统一一下格式，不要乱按字符，处理excel表格期间，我几乎见识了所有的编码格式，并且只要删除一行文字编码格式就会改变，心疼自己这几个月了，给自己加个鸡腿，不得不说互联网公司team还是很和谐的，另外想说旁边语言组的实习小姐姐们都很好看，如果有之后的小伙伴接手了我的活，还希望你能勇敢一点搭讪一下隔壁的小姐姐，帮我完成这一小小心愿。

很多的表格是业务人员做的，所以可能有不同的编码格式，用pandas打开时需要指定编码格式，经常错。

用二进制打开，检测编码类型，然后返回编码格式，再传一个参数给openfile函数

def get_encoding(file):
    # 二进制方式读取，获取字节数据，检测类型
    with open(file, 'rb') as f:
        return chardet.detect(f.read())['encoding']

然后用pandas打开

def open_chat_log_files(filepath,coding_model):
    # 打开csv文件并修改该文件
    df = pd.read_csv(filepath, sep=',', encoding=coding_model,header=[1])
    return df

qq_30432757

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLU项目遇到的坑与解决方法----编码问题

python处理excel表格的时候经常会有编码问题，但是我必须吐槽一下公司的业务，能不能统一一下格式，不要乱按字符，处理excel表格期间，我几乎见识了所有的编码格式，并且只要删除一行文字编码格式就会改变，心疼自己这几个月了，给自己加个鸡腿，不得不说互联网公司team还是很和谐的，另外想说旁边语言组的实习小姐姐们都很好看，如果有之后的小伙伴接手了我的活，还希望你能勇敢一点搭讪一下隔壁的小姐姐，帮...
复制链接

扫一扫