一个检查文本编码类型的Python库

Universal Encoding Detector

http://chardet.feedparser.org/ 

它提供的代码片段示例

>>>   import  urllib
>>>  urlread  =   lambda  url: urllib.urlopen(url).read()
>>>   import  chardet
>>>  chardet.detect(urlread( " http://google.cn/ " ))
{
' encoding ' ' GB2312 ' ' confidence ' 0.99 }

>>>  chardet.detect(urlread( " http://yahoo.co.jp/ " ))
{
' encoding ' ' EUC-JP ' ' confidence ' 0.99 }

>>>  chardet.detect(urlread( " http://amazon.co.jp/ " ))
{
' encoding ' ' SHIFT_JIS ' ' confidence ' 1 }

>>>  chardet.detect(urlread( " http://pravda.ru/ " ))
{
' encoding ' ' windows-1251 ' ' confidence ' 0.9355 }

>>>  chardet.detect(urlread( " http://auction.co.kr/ " ))
{
' encoding ' ' EUC-KR ' ' confidence ' 0.99 }

>>>  chardet.detect(urlread( " http://haaretz.co.il/ " ))
{
' encoding ' ' windows-1255 ' ' confidence ' 0.99 }

>>>  chardet.detect(urlread( " http://www.nectec.or.th/tindex.html " ))
{
' encoding ' ' TIS-620 ' ' confidence ' 0.7675 }

>>>  chardet.detect(urlread( " http://feedparser.org/docs/ " ))
{
' encoding ' ' utf-8 ' ' confidence ' 0.99 }
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值