关闭

Python chardet 字符编码判断

标签: python
415人阅读 评论(0) 收藏 举报
分类:

法一:

isinstance(s, str) 用来判断是否为一般字符串

isinstance(s, unicode) 用来判断是否为unicode

if type(str).name!=”unicode”:
str=unicode(str,”utf-8”)
else:
pass

法二:

Python chardet 字符编码判断
使用 chardet 可以很方便的实现字符串/文件的编码检测。尤其是中文网页,有的页面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些页面,知道网页编码很重要的,虽然HTML页面有charset标签,但是有些时候是不对的。那么chardet就能帮我们大忙了。

chardet实例

>>> import urllib
>>> rawdata = urllib.urlopen('http://www.google.cn/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}

chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典,有2个元数,一个是检测的可信度,另外一个就是检测到的编码。

chardet 安装
下载chardet后,解压chardet压缩包,直接将chardet文件夹放在应用程序目录下,就可以使用import chardet开始使用chardet了。

或者使用setup.py安装文件,将chardet拷贝到Python系统目录下,这样你所有的python程序只要用import chardet就可以了。

python setup.py install参考
chardet官网 http://chardet.feedparser.org/
chardet下载页面:http://chardet.feedparser.org/download/

from:http://www.pythonclub.org/modules/chardet

0
0
查看评论
发表评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场

python判断字符串编码——使用chardet判断字符串编码的方法

转载自:http://www.jb51.net/article/62155.htm 这篇文章主要介绍了python使用chardet判断字符串编码的方法,涉及Python编码的技巧,具有一定...
  • huludan
  • huludan
  • 2016-01-31 16:03
  • 1990

[Python模块学习]chardet模块识别字节包编码

chardet模块可以检测字节包的编码格式。
  • jy692405180
  • jy692405180
  • 2016-09-10 19:30
  • 1348

python 处理中文遇到的编码问题总结 以及 字符str的编码如何判断

general : 尽量把所有的input 都decode成unicode。即 str.decode('')
  • xyqzki
  • xyqzki
  • 2014-07-25 11:42
  • 18605

Python_字符编码问题,chardet,codecs

1. chardet 插件可以方便的检测文件,URL,XML等等字符编码的类型。 2. python中字符串的结构: python的全局函数中basestring,str和unicod...
  • menglei8625
  • menglei8625
  • 2012-05-30 16:17
  • 5893

.NET自动字符编码识别程序库 NChardet 什么是NChardet NChardet是mozilla自动字符编码识别程序库chardet的.NET实现,它移植自jchardet,ch

.NET自动字符编码识别程序库 NChardet  什么是NChardet      NChardet是mozilla自动字符编码识别程序库chardet的.NET实现,它移植自jcharde...
  • wuhenzhangxing
  • wuhenzhangxing
  • 2015-01-08 10:04
  • 435

Python 字符编码判断

题记 在获取中文字符的时候,如果出现乱码的情况,我们需要了解当前的字符串的编码形式。使用下面两种方法可以判断字符串的编码形式。 法一: isinstance(s, str) 用来判断...
  • weixin_40425640
  • weixin_40425640
  • 6天前 16:26
  • 20

判断文件的字符编码

  • 2015-01-08 14:04
  • 750B
  • 下载

Python字符编码理解

长久以来,一直对编码有所不理解,现在梳理一下。 首先要明白几个概念:字符,字符集,字符编码 什么是字符呢? 很简单,比如一个汉字就是一个字符,一个“你”就是一个字符;而同样的,对于英语来说,“a”...
  • kamendula
  • kamendula
  • 2015-06-18 14:22
  • 292

Python字符编码详细分析str与unicode

不论你是有着多年经验的 Python 老司机还是刚入门 Python 不久,你一定遇到过UnicodeEncodeError、UnicodeDecodeError 错误,每当遇到错误我们就拿着 enc...
  • qq_41030861
  • qq_41030861
  • 2018-01-07 11:19
  • 17

Python学习之字符编码

在Pyhon2.x版本中,字符编码是一个烦人的问题,但是在Python3.x版本中,这个问题被解决了。通常如果字符串为一串英文,编码就没有什么问题,但是通常,我们不得不面临使用中文的情况,这样在Pyt...
  • sungsasong
  • sungsasong
  • 2017-04-15 11:52
  • 298
    个人资料
    • 访问:127271次
    • 积分:1853
    • 等级:
    • 排名:千里之外
    • 原创:41篇
    • 转载:117篇
    • 译文:0篇
    • 评论:6条