python获取页面乱码时的处理

用requests模块获取网站数据时,网站的编码是个很麻烦的问题。一般情况下,requests会自动识别网站的编码,如果网页没有指定编码,那就会默认为是ISO-8859-1编码。这个时候可能就会出问题。

一般有几种方式,最简单的就是,人为的指定编码     r.encoding = 'utf-8'

但是采集数据时,可能访问不同域名的网站,这时候就不好为每一个网站都人为的指定一个正确的编码。以下是通用方法

            if r.encoding == 'ISO-8859-1':
                encodings = requests.utils.get_encodings_from_content(r.text)
                if encodings:
                    encoding = encodings[0]
                else:
                    encoding = r.apparent_encoding
                return r.content.decode(encoding, 'replace')
            else:
                return r.text
 

转载于:https://my.oschina.net/textme/blog/1611810

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值