NLU项目遇到的坑与解决方法----编码问题

python处理excel表格的时候经常会有编码问题,但是我必须吐槽一下公司的业务,能不能统一一下格式,不要乱按字符,处理excel表格期间,我几乎见识了所有的编码格式,并且只要删除一行文字编码格式就会改变,心疼自己这几个月了,给自己加个鸡腿,不得不说互联网公司team还是很和谐的,另外想说旁边语言组的实习小姐姐们都很好看,如果有之后的小伙伴接手了我的活,还希望你能勇敢一点搭讪一下隔壁的小姐姐,帮我完成这一小小心愿。

很多的表格是业务人员做的,所以可能有不同的编码格式,用pandas打开时需要指定编码格式,经常错。

用二进制打开,检测编码类型,然后返回编码格式,再传一个参数给openfile函数

def get_encoding(file):
    # 二进制方式读取,获取字节数据,检测类型
    with open(file, 'rb') as f:
        return chardet.detect(f.read())['encoding']

然后用pandas打开

def open_chat_log_files(filepath,coding_model):
    # 打开csv文件并修改该文件
    df = pd.read_csv(filepath, sep=',', encoding=coding_model,header=[1])
    return df
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值