字符编码
ASCII码中一个英文字符占一个字节。
1980年,GB2312 可以存7000多个汉字
1995年,GB18030 可以存2万多个汉字
现在常用中文编码GBK, 且Windows中文模式默认编码为GBK,不是utf-8
国际标准编码为 Unicode,其中,一个汉字或者英文字母都占两个字节。
utf-8 是以Unicode为基础的扩展集,是可变长的字符编码集,其中英文字符占一个字节,一个汉字占3个字节。
字符编码转换
-
python 2.x 版本
- 默认编码
在2.x版本下的默认编码为ASCII,
用 sys.getdefaultencoding()可获取默认编码。 - 编码的转换过程(utf-8 转 GBK)
# -*- encoding: utf-8 -*- s =
- 默认编码