python2.7:文件编码检测chardet 详解

# coding=utf-8
import os,chardet
print os.getcwd() # 打印当前工作目录
os.chdir("C:\Users\Administrator\Desktop\Pyhton2.7Tests") # 修改当前工作目录
f = open("chardet_test.txt", "r")
result = chardet.detect(f.read()) # chardet.detect()方法返回一个字典,confidence是精确度,encoding是编码格式。
print result 
f.close()

import urllib2 # 测试网页编码
d = urllib2.urlopen("http://www.baidu.com") 
print chardet.detect(d.read())
d.close()   # GB2312是中国规定的汉字编码,也可以说是简体中文的字符集编码;GBK 是 GB2312的扩展 ,除了兼容GB2312外,它还能显示繁体中文,还有日文的假名
        # chardet.detect检测到的编码是GB2312,但是实际上的应该是 <meta http-equiv="Content-Type" content="text/html; charset=gbk" />
        # 网页是GBK,所以此时的精确度是99%。
# 输出
# D:\Program Files (x86)\Notepad++
# {'confidence': 1.0, 'encoding': 'ascii'}
# {'confidence': 0.99, 'encoding': 'utf-8'}
# 请按任意键继续. . .

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

VCHH

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值