python2的urllib2读取网页乱码

最新推荐文章于 2023-11-07 17:12:44 发布

原创最新推荐文章于 2023-11-07 17:12:44 发布 · 1.3k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python2.7 #urllib2

Python 专栏收录该内容

11 篇文章

订阅专栏

本文介绍了解决使用Python的urllib2模块抓取特定天气预报API返回的乱码问题的方法。该问题源于服务器端的gzip压缩及未指定编码标准，通过解压缩并正确设置编码方式得以解决。

Python利用urllib2抓取网页返回乱码的问题

http://wthrcdn.etouch.cn/weather_mini?citykey=101010100 这个天气预报接口，并没有meta指定编码。

又被服务器gzip压缩过。

因此直接读取出来的时候，乱码。

而且这里连英文都乱码，说明不是正常的编码。（我应该早点想到的）

解压缩后就好了。

ps:直接用requests不会出现这个问题。

参考：http://www.cnblogs.com/linn/p/4184254.html

很多乱码问题是编码造成的，一般对于中文网站基本是UTF-8,GB2312,可以GB18030通吃。

另一个造成乱码的原因是压缩格式，很多规模较大的网站都是以gzip的压缩格式输出页面的，所以在用BS解析之前需要先判断该网页是否经过压缩，如果经过压缩则先进行解压操作。

import urllib2
import gzip
import StringIO

url = 'http://wthrcdn.etouch.cn/weather_mini?citykey=101010100'
data = urllib2.urlopen(url).read()
data = StringIO.StringIO(data)
gzipper = gzip.GzipFile(fileobj=data)
html = gzipper.read()
print html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

thewindkee

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python urllib2中文乱码怎么解决

hakesashou的博客

06-12

1248

问题到这里就解决了，可是对于不能直接使用简洁的 zlib 库表示很不甘心，毕竟根据 python 的文档 gzip 库也是调用 zlib 来解压的，为什么不直接用 zlib 呢？另一个造成乱码的原因是压缩格式，很多规模较大的网站都是以gzip的压缩格式输出页面的，所以在用BS解析之前需要先判断该网页是否经过压缩，如果经过压缩则先进行解压操作。很多乱码问题是编码造成的，一般对于中文网站基本是UTF-8，GB2312，可以GB18030通吃。/虬&jz=АUdY__\FGA} …

爬取网页乱码 Python urllib2库

贾永翀的博客

12-24

660

Python的urllib2库爬取网页乱码问题一般爬取中文网页乱码的原因有两个: 1.网页编码是gb2312,而python输出是utf-8,所以输出乱码 2.网页内容是经过压缩的,所以不解压直接输出肯定乱码,而大多数网页传输是以gzip压缩传出的首先写一个最简单的爬虫(爬取www.qq.com):# encoding=UTF-8import urllib2 ua_header = {"User

参与评论您还未登录，请先登录后发表或查看评论

python2利用urllib2抓取中文网页乱码的问题

linuxpassion的专栏

10-22

2103

原文地址：http://www.maiziedu.com/article/24347/ 环境python2：问题：r=reponse.read() 为乱码；解决办法：对于r=reponse.read() 返回的内容使用r=r.decode('utf-8') 和r=r.decode('GB2312')都无效时，乱码应该不是由编码造成的，而是由压缩格式（以gzip压缩格式输出页面）；

使用 python urllib2 抓取网页时出现乱码的解决方案

aiben8483的博客

12-16

378

这里记录的是一个门外汉解决使用 urllib2 抓取网页时遇到乱码、崩溃、求助、解决和涨经验的过程。这类问题，事后看来只是个极小极小的坑，不过竟然花去很多时间，也值得记录一下。过程如下：目标：抓取http://sports.sina.com.cn/g/premierleague/index.shtml 代码： 1 2 3 4 5 6...

python urllib2 处理编码的两个注意点

简单,就是他

11-02

863

urllib2可以抓取网页，为了模拟浏览器需要增加header：

python爬取网页有乱码怎么解决

qq_56058244的博客

11-07

2087

爬虫出现乱码

python中urllib.unquote乱码的原因与解决方法

12-24

Python中的urllib模块用来处理url相关的操作，unquote方法对应javascript中的urldecode方法，它对url进行解码，把类似”%xx”的字符替换成单个字符，例如：“法国红酒”解码后会转换成“法国红酒”，但是使用过程中...

解决python3 urllib 链接中有中文的问题

09-20

在使用Python3的urllib库进行网络请求时，如果URL中包含中文字符，很容易遇到编码问题。具体来说，如果直接将含有中文的URL传递给urllib的request模块，由于HTTP协议标准规定URL必须是ASCII码范围内的字符，Python...

解决Python发送Http请求时,中文乱码的问题

09-16

这种方法主要是利用Python内置的`urllib.parse.quote()`函数来对URL中的特殊字符（包括中文）进行编码，确保传输过程中的正确性。 - `msg.encode('utf-8')`: 将字符串转换成UTF-8编码格式，解决中文乱码问题。 - `...

已解决Python爬虫网页中文乱码问题

努力让自己发光，对的人才能迎着光而来

11-11

1万+

已解决Python爬虫网页中文乱码问题

python解决urllib2乱码问题

热门推荐

Eliot

10-17

1万+

举例： #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib2 def main(): url = "http://www.douban.com" #浏览器头 headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1;

Python网页爬虫之中文乱码

weixin_34258782的博客

02-06

598

Python是个好工具，但是也有其固有的一些缺点。最近在学习网页爬虫时就遇到了这样一种问题，中文网站爬取下来的内容往往中文显示乱码。看过我之前博客的同学可能知道，之前爬取的一个学校网页就出现了这个问题，但是当时并没有解决，这着实成了我一个心病。这不，刚刚一解决就将这个方法公布与众，大家一同分享。首先，我说一下Python中文乱码的原因，Python中文乱码是由于Python在解析网页时默认用U...

【python】解决urllib2乱码问题

自信的尘埃 www.gocpplua.com

04-29

2495

在使用python爬取数据的时候，发现获取到的数据在VSCode中，中文乱码：错误版本如下： import urllib import urllib2 import sys type = sys.getfilesystemencoding() page = 1 url = 'http://www.qiushibaike.com/hot/page/' + str(page) user_ag

[python]乱码：python抓取脚本

08-26

189

参考： http://www.zhxl.me/1409.html 使用 python urllib2 抓取网页时出现乱码的解决方案发表回复这里记录的是一个门外汉解决使用 urllib2 抓取网页时遇到乱码、崩溃、求助、解决和涨经验的过程。这类问题，事后看来只是个极小极小的坑，不过竟然花去很多时间，也值得记录一下。过程如下：目标：抓取 http://sports...

下载单个网页(Python2.7)

编程副队长

08-26

921

一，功能与目的就是下载一个网页的源代码，网址就是CSDN博客地址：http://blog.csdn.net/woshisangsang二，下载一个网页通过urllib2模块的urlopen方法可以获取一个地址对应的html代码，注意在linux环境下，需要指明解释器的路径，并指明编码（不然没法使用中文）#!/usr/bin/python2.7 # coding=UTF-8 import urllib

Python3获取网页，网页内容显示乱码

iAilu的博客

04-06

577

通过requests模块获取内容乱码。如下：首先查看当前网页使用什么编码。包含chardet模块。 import chardet 若要查询的网页内容为r.content print (chardet.detect(r.content)) 输出结果为：由此可知该页面使用的是GB2312编码。于是使用GB2312解码。 print (r.content.decode('GB2312')) 此时输出就没有乱码了。 ...

Python 读取网页内容乱码问题

Achilles-Z

03-28

651

从目标url得到response之后可以使用 print content.encoding 查看当前response内容的编码然后如果直接输出中包含乱码，可以通过 content.encoding = ‘utf-8’ 指定为utf-8编码同时在.py文件顶部也可以添加 # -- coding: utf-8 --例子： targetUrl = ‘http://www.mg

Python urllib.unquote乱码解析与解决方案

总结来说，正确处理Python中urllib.unquote的乱码问题，需要对输入数据的类型有清晰的认识，并根据具体情况进行适当的编码和解码操作。这样才能确保数据在URL编码和解码过程中的准确性和一致性。