Python不能对字符解码的问题解析

最新推荐文章于 2024-07-26 09:40:54 发布

monkey_D_feilong

最新推荐文章于 2024-07-26 09:40:54 发布

阅读量4.7k

点赞数 1

分类专栏： Python

Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

今天在做简单的Python爬虫时遇到了编码错误的问题，查找资料得到如下结论：（转载记录，便于今后查找）

报错的异常是
UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequence

此问题，还是很具有代表性的，此处，专门整理如下：

【Python中如何处理UnicodeDecodeError和UnicodeEncodeError】

简答：

1.仔细分析错误的类型

2.搞清自己处理的字符串是什么类型的

3.然后换用这种的字符编码去编码或解码

详解：

以上面的错误：

UnicodeDecodeError: ‘gbk’ codec can’t decode bytes in position 2-3: illegal multibyte sequence

为例，去解释，如何处理这类问题：

1.仔细分析错误的类型

（1）错误是Unicode的编码还是解码

对于此处，错误是：

UnicodeDecodeError

的类型的。

此英文，对应的中文的含义，其实已经很清楚了：

Unicode的解码（Decode）出现错误（Error）了

而对于上面这句，我们可以推断出：

你当前正在处理某种编码类型的字符串
此处你要处理字符串，是想要将该字符串去解码decode，变成Unicode
但是将该字符串解码变成Unicode期间，却出错了

（2）所用的是何种编码

好的，接着看上面的错误：

‘gbk’ codec can’t decode

使得错误信息更加明显了：

你此处，要将字符串解码为Unicode，是以gbk编码的方式去解码（该字符串变成Unicode）的
但是此处通过gbk的方式，却无法解码（can’t decode ）
注：此处的codec，意思是：编解码（器），是Python内部的模块，用来编码或解码（字符串）的

（3）错误位置

bytes in position 2-3

此处的信息，后续一般也很少用到。

有时候会用于定位具体错误的位置。

此处暂且忽略。

（4）错误的细节错误类型

illegal multibyte sequence

翻译为中文为：

非法的，多字节，序列

简单说就是：

没法（解码）了。

【原因及解决办法】

好了，针对于上面所分析出来的信息：

将一个字符串，通过gbk的方式，去解码，想要获得Unicode字符串，结果出错了

我们来说说原因和解决办法：

此种错误，有几种可能：
（1）要处理的字符串本身不是gbk编码，但是你却以gbk编码去解码
比如，字符串本身是utf-8的，但是你却用gbk去解码utf-8的字符串，所以结果不用说，则必然出错

则必然会出现这类的错误，说是，用gbk的方式去解码字符串，想要获得Unicode字符串，但是结果却解码出错了

解决办法：

如果你确定当前字符串，比如抓取网页通过charset=utf-8，已经确定html的字符串是utf-8的，

则可以直接去通过utf-8去解码。

而如果本身对于所处理的字符串，不太清楚是什么编码类型的，可以尝试去通过chardet等模块，去检测看看：

然后搞清楚了，确定了，字符串是什么类型，然后再去解码。

（2）你没有主动的去将字符串编码为对应的Unicode，但是结果也报上面的UnicodeDecodeError的错误:

“Python中，打印字符串时，字符串本身的编码，与输出终端中所用编码不匹配”

此处不再赘述，只简要再说一下：

如果你本身拿到的是utf-8等，非gbk编码的字符串，然后用print去打印出来

在windows系统就是输出到cmd中

而cmd中，（对于多数中国人所用的是中文的系统）默认字符编码是gbk

从而导致此种现象：

python要将utf-8编码的字符串，在gbk的cmd的中打印出来

所以先要去尝试，用gbk的编码，解码为Unicode然后再打印出来

结果就出现此处的错误了。

详细解释，还是参见上面的教程。

其中还有示例代码的。

（3）处理的字符的确是gbk的，但是其中夹杂的部分特殊字符，是gbk编码中所没有的
如果有些特殊字符是GB18030中有的，但是是gbk中没有的。
则用gbk去解码，去所不支持的字符，也比如会出错。
所以，此种情况，可以尝试用和当前编码（gbk）所兼容的但所包含字符更多的编码（gb18030）去解码，或许就可以了。

另外：

如果遇到其他的，类似此中错误的，比如：

UnicodeEncodeError: 'gbk' codec can't encode character u'\u3232' in position 0: illegal multibyte sequence

等类型的错误，你就可以按照上述的思路，去分析，错误的现象，原因，然后通过自己，就可以找到解决办法了。

monkey_D_feilong

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

monkey_D_feilong CSDN认证博客专家 CSDN认证企业博客

码龄9年

33: 原创

104万+: 周排名

129万+: 总排名

11万+: 访问

: 等级

1432: 积分

14: 粉丝

37: 获赞

15: 评论

100: 收藏

私信

关注

热门文章

分类专栏

mysql 7篇
Android开发 1篇
c++ 22篇
JAVA 2篇
Python 2篇
算法 16篇
STL 1篇
多线程 1篇

最新评论

deque 迭代器失效的问题详解
Infinite_chaos: 在GCC中，“.在deque容器首部或者尾部插入元素不会使得任何迭代器失效。”这句是对的。
deque 迭代器失效的问题详解
程序猿皮卡丘: 删除包含首元素在内的元素时，会使被删除元素前的所有迭代器、指针、引用失效，被删除元素后的所有迭代器、指针、引用不会失效。
deque 迭代器失效的问题详解
程序猿皮卡丘: 2.当插入(push_back)一个元素后，capacity返回值与没有插入元素之前相比有改变，则需要重新加载整个容器，此时first和end操作返回的迭代器都会失效。 //这里补充一下，此时包含first、end在内的全部迭代器，都会失效
字符串末尾自动加上'\0'的情况
zhangchanggong00: 他狼啃的，真不错
c++类成员变量的初始化顺序以及特殊成员的初始化方法规则
zouxinyuAI: 您好，博主！看到了您一篇关于《c++类成员变量的初始化顺序以及特殊成员的初始化方法规则》的文章，感觉很受用！！想请问一下这些知识您在哪里学到的，有没有具体的书籍可以参考，想研究一下~

大家在看

【漏洞复现】用友 GRP-U8 bx_dj_check.jsp Sql注入漏洞

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。