点击上方“Python日记本”
未来有大量项目实操和自动化办公,欢迎关注!
最近,在处理一些csv和excel格式文件
在读取中文的情况下,通常会遇到一些编码的问题
传统方法都是尝试用utf-8和gbk打开
然后都打不开(如以下两图)
上网翻阅了资料,见到推荐说多尝试其他文字编码
比如说GB2312编码、GB18030编码,但都不可以打开
我当时就想,与其猜灯谜般尝试这么多编码,不如看看有没有方法直接知道这个文件是什么编码
在搜索引擎的结果中,推荐了chardet库来查看编码方式的。
import chardet
#打开其中一个csv文件,查看其编码格式
f = open('\\Users\\a\\Desktop\\428.csv','rb')
data = f.read()
print(chardet.detect(data))
把文件解释成二进制,再调用chardet模块的detect方法读取这个文件数据就知道这个文件是用什么编码了。
可以看到,这个文件是用utf-16编码格式的
用utf-16编码,就能打开这个csv文件了
相关阅读 请求头快速加引号和用逗号隔开 自动化办公 | docx模块简要介绍Python怎么实现营销号生成器功能?(对文章有疑问或者有建议,可以在后台加微信聊聊哦!)