python编码检测模块chardet

在处理抓取的网页内容时,编码问题常常令人困扰。Python的chardet库提供了解决方案,能自动检测编码并返回信心度。本文介绍了chardet的安装方法,以及两种检测编码的方法:`detect`和`universaldetector`,后者适用于大文件,避免了内存开销。
摘要由CSDN通过智能技术生成

抓取一批页面的内容时,经常会遇到编码类型不同的问题,经常令我们比较头痛,python有一个第三方的编码检测模块模块,可以为我们自动检测编码类型,并给出信心度,它检测的返回结果形式为:

{
  'confidence': 0.99, 'encoding': 'utf-8'}

它是一个字典类型,我们可以通过字典的方式访问结果中的值。

chardet的安装

chardet 是python的第三方库,需要下载和安装。下载的地址有:

  1. 推荐地址: http://download.csdn.net/download/aqwd2008/4256178
  2. 官方地址: http://pypi.python.org/pypi/chardet

如果采用源代码安装方法,有可能会提示缺少setuptools这个模块。因此这里我们采用另外一种更为方便的安装方法,不论你选择哪种安装包,将它解压得到其中的文件夹【chardet】将这个文件夹复制到【python安装根目录\Lib\site-packages】下,确保这个位置可以

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值