python2.7:文件编码检测chardet 详解

最新推荐文章于 2024-04-24 10:00:00 发布

VCHH

最新推荐文章于 2024-04-24 10:00:00 发布

阅读量2.5k

点赞数

分类专栏： Python2.7

本文链接：https://blog.csdn.net/LANGZI7758521/article/details/50977441

版权

Python2.7 专栏收录该内容

41 篇文章 0 订阅

订阅专栏

# coding=utf-8
import os,chardet
print os.getcwd() # 打印当前工作目录
os.chdir("C:\Users\Administrator\Desktop\Pyhton2.7Tests") # 修改当前工作目录
f = open("chardet_test.txt", "r")
result = chardet.detect(f.read()) # chardet.detect()方法返回一个字典，confidence是精确度，encoding是编码格式。
print result 
f.close()

import urllib2 # 测试网页编码
d = urllib2.urlopen("http://www.baidu.com") 
print chardet.detect(d.read())
d.close()   # GB2312是中国规定的汉字编码，也可以说是简体中文的字符集编码;GBK 是 GB2312的扩展 ,除了兼容GB2312外，它还能显示繁体中文，还有日文的假名
        # chardet.detect检测到的编码是GB2312，但是实际上的应该是 <meta http-equiv="Content-Type" content="text/html; charset=gbk" />
        # 网页是GBK，所以此时的精确度是99%。
# 输出
# D:\Program Files (x86)\Notepad++
# {'confidence': 1.0, 'encoding': 'ascii'}
# {'confidence': 0.99, 'encoding': 'utf-8'}
# 请按任意键继续. . .

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

VCHH

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
python2.7:文件编码检测chardet 详解

# coding=utf-8import os,chardetprint os.getcwd() # 打印当前工作目录os.chdir("C:\Users\Administrator\Desktop\Pyhton2.7Tests") # 修改当前工作目录f = open("open_file_test.txt", "r")result = chardet.detect(f.read())
复制链接

扫一扫