其他字符编码
- ASCII码
ASCII码(American Standard Code Information Interchange,美国标准信息交换代码)。这一套编码用于表示各种字符:0-9,字母,标点符号以及其他非字符信号,ASCII码采用7二进制位,如0用0110000(48)表示,a用1100001(97)表示。
- 汉字编码
对于汉字来说也有它自己的编码,但是因为汉字有太多的文字了,常用的文字有7000个。所以对于汉字来说,有三个环节:汉字的编码输入、汉字的存储和汉字的输出。
关于输入码有三种:数字编码、拼音码和字形编码
- 数字编码 即用数字记录常用的汉字,将常用汉字分为94个区,每个区94位,区码和位码各两位十进制数字。例如:“中”字位于54区48位,区位码为5448。在这种表中,按照字母或者部首排序。这种输入方式,需要进行查字典的方式查询位码,难以记忆。
- 拼音码 拼音码就是按照拼音输入,在进行同音字选择。
- 字形编码 将汉字的笔画顺序进行编码,比如五笔字型
关于内部码:用两个字节存放一个汉字码。但是对于字节进行处理的话,分不清会是什么编码,是字符还是数字。所以规定了,在用两个字节的每个字节的首位用1表示,这样就识别到两个字节的首位都带1的时候,就会认为这两个字节码在表示一个汉字。目前最新的中文编码为:GB18030——2005,该编码兼容GB2312以及支持编码GB13000及Unicode的全部汉字,共收录70244个。
关于字形码,是为了将汉字进行输出。字形码通常用点阵,矢量函数等方式表示自行,每个不同的汉字字形点阵代码,对于精度更高的汉字可以有更精密的点阵,也就是更清晰的字体。
而矢量函数,是存储的壁画的坐标值以及矢量信息,通过这两个便可以绘画出一个汉字。
- Unicode
为了表示世界各国文字,将各种文字收录了进来,进行了统一的编码。对于不同的编码可以有不同的解析,比如UTF-8,经常出现的乱码情况,是因为编码方式不同导致的。