每日一记:简单实现python自动识别文档编码

最近在搞文件分析时遇到一个比较头疼的问题:文档编码不确定的时候该如何处理?

目前python好像还不能自动处理文档编码,在open方法打开一个文档时,必须通过encoding参数指定编码,这样不符合我的要求。

网上搜寻一番后,看到有人说用chardet模块,我试了下,貌似有点问题,不能解决我遇到的问题。

最终,我想了一个简单粗暴的方法,巧用try/except语句来实现”伪自动“识别文档编码,代码如下:

def getFileType(file_path):
    FileType = "gbk"
    try:
        htmlf = open(file_path, 'r', encoding=FileType)
        htmlf.read()
    except UnicodeDecodeError:
        FileType = "utf-8"
    else:
        htmlf.close()
    return FileType


## 这里只考虑了两种常见编码类型
## 在open方法中直接调用即可:open(files_path, 'r', encoding=getFileType(files_path))

如果你有更好的方法,不要吝啬,分享出来给我学习学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值