Python爬虫爬取网页转码报错

最新推荐文章于 2022-08-18 14:22:18 发布

royma_1990

最新推荐文章于 2022-08-18 14:22:18 发布

阅读量1.3k

点赞数

分类专栏： Python 爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/royma_1990/article/details/52301134

版权

问题描述

在使用Python编写爬虫爬取淘宝页面数据时，遇到编码错误，具体问题如下。

爬虫代码：

……
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)
return response.read().decode('gbk')
……

执行代码到return这一行的时候报错：

UnicodeDecodeError: 'gbk' codec can't decode bytes in position 1-2: illegal multibyte sequence

仔细检查代码没有发现错误，淘宝页面的编码也是gbk，后面才发现是由于淘宝将网页

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

royma_1990

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python urllib爬取网页编码问题

hfut_jf的专栏

04-28

1万+

利用python urllib库爬取网页，有时获得的网页打印或写文件遇到编码问题，找了许久终于知道为什么了。首先利用urlopen()函数获取网页对象，再利用info()函数打印网页的相关信息，确定网页的编码及是否压缩。 import urllib.request fp = urllib.request.urlopen('http://www.sina.com') mybytes =

python ——网页爬虫乱码以及转码问题

sqiu_11的博客

06-01

3502

前言： Python 3最重要的新特性大概要算是对文本和二进制数据作了更为清晰的区分。文本总是Unicode，由str类型表示，二进制数据则由bytes类型表示。 Python 3不会以任意隐式的方式混用str和bytes，正是这使得两者的区分特别清晰。你不能拼接字符串和字节包，也无法在字节包里搜索字符串（反之亦然），也不能将字符串传入参数为字节包的函数（反

参与评论您还未登录，请先登录后发表或查看评论

网络爬虫：识别网站编码，然后转码，然后写入txt文档

chaowanghn的博客

01-17

3014

读取一个网页信息时，需要了解编码格式，然后进行解码。推荐使用chardet包中detect()函数import urllib.request response=urllib.request.urlopen("http://baidu.com").read() import chardet print ("该网页使用的编码是：%s" %(chardet.detect(response)))该网页使用的

关于 Content-Encoding: gzip - 知道创宇

04-27

591

关于 Content-Encoding: gzip - 知道创宇关于 Content-Encoding: gzip - 知道创宇关于 Content-Encoding: gzip2012-04-20背景 === 如果你的网页抓取程序（例如爬虫）在抓取网页时没有发送...

python3 requests中文乱码问题之压缩格式问题

Jason_WangYing的博客

08-18

1090

我们再看"Accept-Encoding"，这个意思就是返回的数据使用的是什么压缩格式，平常我们经常使用"gzip, deflate",这是我们发现后面还跟了个br，br是什么格式呢？刚开始我用request库时发现，对返回的response数据必须要引入brotli，这样才能解压缩数据，如果不引入无法解析数据，还是会反回乱码数据。我们在爬虫时，经常会遇见中文乱码问题，之前都是编码格式的问题，很少遇见由于压缩格式造成的编码混乱问题，特记录下。我们转了后发现解析出来的数据还是乱码，这是什么情况呢？...

请求响应参数说明

aaaaaaaa123321222的博客

01-02

3066

Requests Header | Http Header Header 解释示例 Accept 指定客户端能够接收的内容类型 Accept: text/plain, text/html Accept-Charset 浏览器可以接受的字符编码集。 Accept-Charset: iso-8859-5

[python爬虫]爬取boss直聘并且存到Mysql数据库里

Black_God1的博客

08-22

1535

导包 import chardet,re,json,pymysql from urllib import request,parse from piaot import * Mysql def sql(sql_z): # 打开数据库连接 db = pymysql.connect("192.168.43.128", "root", "123456", "boss", ch...

python爬虫实战——爬取股票个股信息

chaojiao3138的博客

07-31

2958

爬虫爬取网页信息的思路：发送网页端请求—>获取响应内容—>解析内容—> 获取想要的数据—>保存数据这次我们要实现的是爬取静态网页的股票数据，首先是获取沪深A股的所有股票代码，再用这些股票代码获取相应股票的信息东方财富网有所有个股的股票代码（沪深A股所有股票）查看其网页源代码在网页源代码中可以搜索到相应的元素，判断其是数据是静态的接下来是获取每只个股的信息，由于周...

Python 批量爬取猫咪图片实现千图成像

weixin_54556126的博客

11-03

2921

前言使用 Python 爬取猫咪图片，并为猫咪????制作千图成像！爬取猫咪图片本文使用的 Python 版本是 3.10.0 版本，可直接在官网下载：www.python.org 。 Pythonn 的安装配置过程在此不做详细介绍，网上随意搜都是教程！ 1、爬取绘艺素材网站爬取网站：猫咪图片首先安装必须的库： pip install BeautifulSoup4 pip install requests pip install urllib3 pip install

Python转码问题的解决方法

12-24

比如，若要将某个String对象s从gbk内码转换为UTF-8，可以如下操作 s.decode(‘gbk’).encode(‘utf-8′) 可是，在实际开发中，我发现，这种办法经常会出现异常： UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 30664-30665: illegal multibyte sequence 这是因为遇到了非法字符——尤其是在某些用C/C++编写的程序中，全角空格往往有多种不同的实现方式，比如\xa3\xa0，或者\xa4\x57，这些字符，看起来都是全角空格，但它们并不是“合法”的

python爬虫之cookie与URLErroe异常处理

sjjsaaaa的博客

12-15

485

Python 爬虫中文乱码一文通

HRG520JN的博客

07-27

3975

还在找python中文乱码的解决方法？来跟我学习，一文直接PASS。

Python 中gzip模块完成对文件的压缩和解压

热门推荐

wjhsg的专栏

07-31

1万+

gzip块主要支持打开对应格式的压缩文件，并可以完成对压缩文件的读出和写入操作。压缩文件被打开后，可以使用文件对象一样的方法，如read、readline、readlines、write、writelines等。【代码示例】使用gzip模块完成对文件的压缩。 import gzip f_in = open("data.txt", "rb") #打开文件 f_out = gzip.open...

网络爬虫--网页数据压缩(python deflate gzip)

2024 做自己的太阳

11-23

4779

转自：http://www.jianshu.com/p/2c2781462902 做项目就伴随着一个问题--数据来源。在网络数据获取的过程，考虑到数据的动态下载需要爬虫。这也是必经之路吧。我在运用urllib2做相当简单的爬虫入门实验的时候，出现编码以及压缩等问题。这一个坑很多人踩过，甚至有人处理编码问题会出现一种情况，就是5分钟开发完成，25分钟处理编码问题。更不用说数据压缩，数据

从python爬虫引发出的gzip,deflate,sdch,br压缩算法分析

auxp98840的博客

12-18

971

今天在使用python爬虫时遇到一个奇怪的问题,使用的是自带的urllib库，在解析网页时获取到的为b'\x1f\x8b\x08\x00\x00\x00\x00...等十六进制数字，尝试使用chardet来检查编码格式时发现encoding为None,因为以前一直用的是requests库，所以没有仔细注意过这个问题，经过详细搜索后分析如下（下面代码是修改后加入gzip的）：转载注明h...

[python爬虫]对html解析读取编码格式，统一转码为utf-8

南京大学的CS渣

12-05

1万+

from urllib.request import urlopen import chardet response=urlopen(url,timeout=3) html_byte=response.read() chardit1 = chardet.detect(html_byte) file = open(PROJ

Python网络爬虫出现乱码的原因

皓阳当空-博客

10-16

1万+

关于爬虫乱码有很多各式各样的问题，这里不仅是中文乱码，编码转换、还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为解决方式是一致的，故在此统一说明。网络爬虫出现乱码的原因源网页编码和爬取下来后的编码格式不一致。如源网页为gbk编码的字节流，而我们抓取下后程序直接使用utf-8进行编码并输出到存储文件中，这必然会引起乱码即当源网页编码和抓取下来后程序直接使

用python爬虫爬取网页小说