【Python】中文编解码操作

魔都吴所谓

已于 2023-03-02 19:57:02 修改

阅读量2.8k

点赞数 1

分类专栏： Python 实用工具文章标签： python 开发语言

于 2022-07-10 14:03:34 首次发布

本文链接：https://blog.csdn.net/qq_41604569/article/details/125705016

版权

实用工具同时被 2 个专栏收录

116 篇文章 5 订阅

订阅专栏

Python

113 篇文章 15 订阅

订阅专栏

在做一些爬虫的时候会涉及到中文的参数get方式传递，我们给的参数是汉字，但是在实际传值过程中发现传输的并不是最初给的信息，而是一串形如：%E4%B8%AD%E5%9B%BD，通过肉眼是无法看到这串火星文的含义的，这串文字是干嘛的，今天我们来通过代码的方式了解下它；

代码1

from urllib import parse

data = '中国'

print(parse.quote(data))  # 对中文进行编码
print(parse.unquote(parse.quote(data)))  # 进行解码操作

结果

%E4%B8%AD%E5%9B%BD
中国

上面这个过程就是一个编码与解码的过程，借助第三方库：
先编码，将变量变成一串肉眼无法读懂的字符串；
如果想要知道这个变量是什么意思，再将这一串火星文解码，就可以解析成我们可以看的懂的文字；

代码2：编码方式

gbk

gbk：常用的一种编码方式之一；

data = '中国'

data1 = data.encode("gbk")
de_data1 = data1.decode("gbk")

结果：

b'\xd6\xd0\xb9\xfa'
中国

utf-8

utf-8：常用的一种编码方式之一；

data = '中国'

data2 = data.encode("utf-8")
de_data2 = data2.decode("utf-8")

print(data2)
print(de_data2)

结果

b'\xe4\xb8\xad\xe5\x9b\xbd'
中国

到现在为止，我们可以看到两种编码方式都可以实现编码与解码的过程；不同的编码方式导致的编码结果不同，但是最后解码的时候都是返回我们最初设置的变量值；

gbk与utf-8混用

data = '中国'

data3 = data.encode("gbk")
de_data3 = data3.decode("utf-8")
print(data3)
print(de_data3)

结果

Traceback (most recent call last):
  File "D:\code\wusuowei\python_list2.py", line 19, in <module>
    de_data3 = data3.decode("utf-8")
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd6 in position 0: invalid continuation byte

在执行过程中出现了UnicodeDecodeError，解码异常的提示；
先来说说我们干了啥：
首先，根据所给的字符串进行编码，编码方式选用：gbk;
其次，对编码后的数据进行解码，解码方式选用：utf-8;
最后打印结果出现异常；
另外一种方式我们这里就不再尝试了，结论和这个是一样的，感兴趣的小伙伴可以自行体验一下~~~

结论：

编码时，使用哪种编码方式，再解码的时候，也使用该方式进行解码，否则会出现解码异常；
这大概就是我们的俗语：龙生龙，凤生凤，老鼠的孩子会打洞；两个不同的编解码方式组合在一起使用是不科学的，也是不合理的；

延伸

另外一个库也可以实现编解码，看下代码感受下：

import urllib.request

key = "中国"

url = urllib.request.quote(key)  # 对中文进行转码
print(url)
print(urllib.request.unquote(url))  # 对URL进行中文解码

结果

%E4%B8%AD%E5%9B%BD
中国

和开头讲解的编码方式大同小异，结果上也是一致的；

代码汇总

from urllib import parse

data = '中国'

print(parse.quote(data))  # 对中文进行编码
print(parse.unquote(parse.quote(data)))  # 进行解码操作

data1 = data.encode("gbk")
data2 = data.encode("utf-8")

print(data1)
print(data2)
de_data1 = data1.decode("gbk")
de_data2 = data2.decode("utf-8")
print(de_data1)
print(de_data2)

#
# data3 = data.encode("gbk")
# de_data3 = data3.decode("utf-8")
# print(data3)
# print(de_data3)

# de_data11 = data1.decode("utf-8")
# print(de_data11)  # 报错

import urllib.request

key = "中国"

url = urllib.request.quote(key)  # 对中文进行转码
print(url)
print(urllib.request.unquote(url))  # 对URL进行中文解码

结果

%E4%B8%AD%E5%9B%BD
中国
b'\xd6\xd0\xb9\xfa'
b'\xe4\xb8\xad\xe5\x9b\xbd'
中国
中国
%E4%B8%AD%E5%9B%BD
中国

欢迎关注，微信公众号：魔都吴所谓，解锁更多技能，期待您的加入~~~

魔都吴所谓

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Python】中文编解码操作

在做一些爬虫的时候会涉及到中文的参数get方式传递，我们给的参数是汉字，但是在实际传值过程中发现传输的并不是最初给的信息，而是一串形如：`%E4%B8%AD%E5%9B%BD`，通过肉眼是无法看到这串火星文的含义的，这串文字是干嘛的，今天我们来通过代码的方式了解下它；......
复制链接

扫一扫