说到计算机语言,其实追究到最底层的电路元件,其实就两个状态,要么通电,要么不通电,所以,最根本的计算机语言其实就是用0和1表示。
数字的话,二进制其实很好理解,满二进一。所以数字可以很容易的转化为计算机语言,但是英文字母和符号的话怎么办呢?
这时候就出来了一张表,英文名简写 ASCII 。中文名是 美国信息交换标准代码。
但是ASCII码能表示的数字只有0~255. 其中英文26个字母加数字加各种符号占去了127位,还剩120多位的扩展要怎么表示中文呢?
在1980年出来一个GB2312,能表示7000多个汉字。其实就是在ASCII码的基础上的扩展,在ASCII码剩余120多个位置中,有指定的位置表示中文,直接指向另一张表,就是这个GB2312.
但是7000多个汉字对比我们5000年的文化来说,还是不够啊。因此,在1995年的时候,在GB2312的基础上,做了一个升级,GBK1.0 。能表示2万多个汉字。这对于普通人日常所需肯定是已经够了,但是有些特殊职业会用到一些特别生僻的汉字,怎么办呢?
在2000年,又推出一个升级款GB18030 。能表示27000多个汉字。但是这个只能表示中文,其他国家的语言怎么办呢?
在1990年开始研发一个所有国家都能用的计算机编码。1994年的时候正式发布。就是Unicode。中文名 :万国码!~
Unicode和ASCII的区别有哪些呢,ASCII码一个字符表示一个字节也就是1bytes。Unicode一个字符表示2bytes。但是英文一个字符就是1bytes怎么办呢?
因此就出来 utf-8 :en-1bytes , zh-3bytes
再来说说Python3和Python2在字符处理上的不同。
Python3默认就是通过utf-8去处理的字符。但是Python2不是,如果直接在Python2里使用中文,会直接报错 Non-ASCII character 。
如果要在Python2里使用中文,官方文档也给了解决办法。就是在最开头加一句就好了:
# -*- coding:utf-8 -*-
通过书籍Python基础整理记录