python处理excel表格的时候经常会有编码问题,但是我必须吐槽一下公司的业务,能不能统一一下格式,不要乱按字符,处理excel表格期间,我几乎见识了所有的编码格式,并且只要删除一行文字编码格式就会改变,心疼自己这几个月了,给自己加个鸡腿,不得不说互联网公司team还是很和谐的,另外想说旁边语言组的实习小姐姐们都很好看,如果有之后的小伙伴接手了我的活,还希望你能勇敢一点搭讪一下隔壁的小姐姐,帮我完成这一小小心愿。
很多的表格是业务人员做的,所以可能有不同的编码格式,用pandas打开时需要指定编码格式,经常错。
用二进制打开,检测编码类型,然后返回编码格式,再传一个参数给openfile函数
def get_encoding(file): # 二进制方式读取,获取字节数据,检测类型 with open(file, 'rb') as f: return chardet.detect(f.read())['encoding']
然后用pandas打开
def open_chat_log_files(filepath,coding_model): # 打开csv文件并修改该文件 df = pd.read_csv(filepath, sep=',', encoding=coding_model,header=[1]) return df