抓取一批页面的内容时,经常会遇到编码类型不同的问题,经常令我们比较头痛,python有一个第三方的编码检测模块模块,可以为我们自动检测编码类型,并给出信心度,它检测的返回结果形式为:
{
'confidence': 0.99, 'encoding': 'utf-8'}
它是一个字典类型,我们可以通过字典的方式访问结果中的值。
chardet的安装
chardet 是python的第三方库,需要下载和安装。下载的地址有:
如果采用源代码安装方法,有可能会提示缺少setuptools这个模块。因此这里我们采用另外一种更为方便的安装方法,不论你选择哪种安装包,将它解压得到其中的文件夹【chardet】将这个文件夹复制到【python安装根目录\Lib\site-packages】下,确保这个位置可以