3.9编码与解码

编码和解码

1.编码历史
ascii:只能存英文和拉丁字符,一个字符召一个字节
gb2312:6700个中文
gbk:20000多中文,1995年
gb18030:27000中文
unicode: utf-32 一个字符占四个字节
utf-16 一个字符占两个字节或两个字节以上
utf-8 一个英文用ASCII码存,一个中文占3个字节

2.Win操作系统cmd修改默认编码格式方法
默认编码是936
打开的命令窗口,如果我们要修改成UTF8编码,输入命令
chcp 65001

下表列出了所有支持的代码页及其国家(地区)或者语言:

3.代码页 国家(地区)或语言
437 美国
708 阿拉伯文(ASMO 708)
720 阿拉伯文(DOS)
850 多语言(拉丁文 I)
852 中欧(DOS) - 斯拉夫语(拉丁文 II)
855 西里尔文(俄语)
857 土耳其语
860 葡萄牙语
861 冰岛语
862 希伯来文(DOS)
863 加拿大 - 法语
865 日耳曼语
866 俄语 - 西里尔文(DOS)
869 现代希腊语
874 泰文(Windows)
932 日文(Shift-JIS)
936 中国 - 简体中文(GB2312)
949 韩文
950 繁体中文(Big5)
1200 Unicode
1201 Unicode (Big-Endian)
1250 中欧(Windows)
1251 西里尔文(Windows)
1252 西欧(Windows)
1253 希腊文(Windows)
1254 土耳其文(Windows)
1255 希伯来文(Windows)
1256 阿拉伯文(Windows)
1257 波罗的海文(Windows)
1258 越南文(Windows)
20866 西里尔文(KOI8-R)
21866 西里尔文(KOI8-U)
28592 中欧(ISO)
28593 拉丁文 3 (ISO)
28594 波罗的海文(ISO)
28595 西里尔文(ISO)
28596 阿拉伯文(ISO)
28597 希腊文(ISO)
28598 希伯来文(ISO-Visual)
38598 希伯来文(ISO-Logical)
50000 用户定义的
50001 自动选择
50220 日文(JIS)
50221 日文(JIS-允许一个字节的片假名)
50222 日文(JIS-允许一个字节的片假名 - SO/SI)
50225 韩文(ISO)
50932 日文(自动选择)
50949 韩文(自动选择)
51932 日文(EUC)
51949 韩文(EUC)
52936 简体中文(HZ)
65000 Unicode (UTF-7)
65001 Unicode (UTF-8)

4.PYTHON默认编码
Python2:ASCII
Python3: utf-8

解码都是转成unicode,unicode 是编码解码的中间转换站
显示器和程序编码最好保持一致

5.python2和Python3实例
Python2:

a="中国人"
a_decode=a.decode("utf-8")
print(a_decode)
a_decode_encode=a_decode.encode("gbk")

在cmd中运行试试

Python3:

import sys
a="中国人"
print(sys.getdefaultencoding())   #验证python3的默认编码方式

utf-8

b="中国人1"
b_toencode=b.encode("gbk")
print(b_toencode)
print(b)
b_en_todecode=b_toencode.decode("gbk")
print(b_en_todecode)

b'\xd6\xd0\xb9\xfa\xc8\xcb1'
中国人1
中国人1

转载于:https://blog.51cto.com/10777193/2069980

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值