python 2.7 用chardet解决爬虫获取网页编码的识别判断和转换问题

python3以前版本的最头痛问题就是编码的转换,在爬取不同网页的时候发现编码有N多种,目前已爬取到的网页编码如下:

gbk
utf-8
UTF-8-SIG
SHIFT_JIS
GB2312
Big5
EUC-JP
ascii
CP932
EUC-KR
UTF-16
ISO-8859-5
IBM866
ISO-8859-1
Windows-1252
ISO-8859-9
国内站点网页编码主要以utf8 和 GBK GB2312为主。
我们这里使用chardet识别编码格式,并把它转换为统一的编码:

import chardet

import urllib2

html = urllib2.urlopen("http://xxx.xxxx.xxxx").read()

detRes = chardet.detect(html) #html = urllib2.urlopen().read()函数的返回结果

charset = detRes["encoding"]

html = html.decode(charset,"ignore")#依据分析结果进行解码,将源编码解码为unicode

utf8Str=html.encode("utf8",'ignore')#编码为自己需要的字符集,这里以utf8为例

使用chardet因为要进行全文编码检测,执行效率比较低,针对几万个字符或几十万字符的网页就会有明显延迟现象,也可以只截取一部分内容进行检测,以加快程序执行效率。

另外的方法有通过查找页面 meta标签的charset属性进行判断,这个方法能适应大部分网页且效率比chardet高,但有小部分网页也无法正确解码,大家可以自行测试。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值