python获取页面乱码时的处理

最新推荐文章于 2023-11-07 17:12:44 发布

chongliang7833

最新推荐文章于 2023-11-07 17:12:44 发布

阅读量128

点赞数

文章标签： python

原文链接：https://my.oschina.net/textme/blog/1611810

版权

用requests模块获取网站数据时，网站的编码是个很麻烦的问题。一般情况下，requests会自动识别网站的编码,如果网页没有指定编码，那就会默认为是ISO-8859-1编码。这个时候可能就会出问题。

一般有几种方式，最简单的就是，人为的指定编码 r.encoding = 'utf-8'

但是采集数据时，可能访问不同域名的网站，这时候就不好为每一个网站都人为的指定一个正确的编码。以下是通用方法

           if r.encoding == 'ISO-8859-1':
               encodings = requests.utils.get_encodings_from_content(r.text)
               if encodings:
                   encoding = encodings[0]
               else:
                   encoding = r.apparent_encoding
               return r.content.decode(encoding, 'replace')
           else:
               return r.text

转载于:https://my.oschina.net/textme/blog/1611810