每日一记：简单实现python自动识别文档编码

最新推荐文章于 2024-07-25 07:00:00 发布

城风漫漫

最新推荐文章于 2024-07-25 07:00:00 发布

阅读量1.1k

点赞数

分类专栏：开发：Python开发之路文章标签： python 编码

本文链接：https://blog.csdn.net/u013012406/article/details/104016714

版权

开发：Python开发之路专栏收录该内容

15 篇文章 1 订阅

订阅专栏

最近在搞文件分析时遇到一个比较头疼的问题：文档编码不确定的时候该如何处理？

目前python好像还不能自动处理文档编码，在open方法打开一个文档时，必须通过encoding参数指定编码，这样不符合我的要求。

网上搜寻一番后，看到有人说用chardet模块，我试了下，貌似有点问题，不能解决我遇到的问题。

最终，我想了一个简单粗暴的方法，巧用try/except语句来实现”伪自动“识别文档编码，代码如下：

def getFileType(file_path):
    FileType = "gbk"
    try:
        htmlf = open(file_path, 'r', encoding=FileType)
        htmlf.read()
    except UnicodeDecodeError:
        FileType = "utf-8"
    else:
        htmlf.close()
    return FileType


## 这里只考虑了两种常见编码类型
## 在open方法中直接调用即可：open(files_path, 'r', encoding=getFileType(files_path))

如果你有更好的方法，不要吝啬，分享出来给我学习学习。