使用如下命令,安装 chardet
库 :
pip install chardet
文字编码检测范例:
>>> data = '有一种东西不能遵循从众原则,那就是人的良心。《杀死一只知更鸟》'.encode('gbk')
# data 为 bytes 数组
>>> chardet.detect(data)
{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}
- 由于部分编码的相似性,当文字内容较少时,会存在误判的情况。
扩展
- chardet/chardet: Python character encoding detector: https://github.com/chardet/chardet
- chardet 支持的编码 : https://chardet.readthedocs.io/en/latest/supported-encodings.html
- 文章系个人学习总结,希望可以给大家带来些许启发,欢迎提出建议或给予指正。
- 本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。
- 欢迎大家转载分享,转载请标明源地址,谢谢