先来听个故事
我们都知道,计算机的语言 二进制,在计算机中 使用二进制代表所有数据
一开始 USA人用 1个字节 其中的低七位 也就是 128个数来表示他们的 字母和字符 如 A:65
这就出现最初的编码方式 ASCii码
但是 问题就来了 其他国家也要 使用计算机吧 不能让USA 自己发展吧
那其他国家也有自己的语言吧,所以有的国家使用了整一个字节,但相对于 亚洲国家的语言,显然一个字节是远远不够的。
同时 每个国家都对 0-127 之后的位数有各自的定义。导致自己做的东西不能 出售到别的国家。这肯定就顶不住了呀。
所以,一开始人们就提出了 “内码表” 的概念,利用 “内码表” 程序就可以切换到相应语言。
但涉及到多种语言时,就要频繁的切换,这就导致了程序996,这程序不干呀
最终,USA人提出了一种标准方案,用来表示全部的语言字符-------Unicode字符集就诞生了
Unicode字符集 的想法很简单 就是将每个字符指定一个数字 仅此而已
那么 新的问题又出现了,那么多的字符,定义有的是一个字节,有的则是2.3.4个字节。
那有一个 N 字节的数字,计算机如何知道 你是这 N 个字节是表示一个字符呢,还是表示N个字符呢。一开始想的 简单粗暴的方法是 以最大的字节 去表示所有字符,不够的往前面补0。这样是很简单的解决了编码的问题。但我搬家总共就一条裤衩的行李,你叫一卡车来载。不就造成了极大的空间资源浪费么。
所以为了较好的解决编码问题就诞生了,UTF - 8,16,32 等编码方式。
UTF-8:因其单个字节时,编码方式与ASCII码完全相同,所以其与之前的ASCII码兼容。
单个字节时,与ACSII相同,第一位为0,后面的 7 位对应这个字符的 Unicode 码点
N个字节时,第一个字节最高的N位为1,N+1位为0.其它的N-1个字节高两位为10,其它按这个字符的 Unicode
码点填充,不够前面补0.UTF-16:unicode字符集是可以无限延伸的,其由 基本平面,辅助平面
两部分组成,基础平面字符长度占两个字节,辅助平面字符长度占四个字节。也就是说UTF-16
编码长度只能为两个或四个字节。关于如何分清是读四个字节还是两个字节这点,在基本平面内,从U+D800
到 `U+DFFF 是一个空段,即这些码点不对应任何字符。因此,这个空段可以用来映射辅助平面的字符。
注:上面说过 各个国家有使用 ASCII码的最高位 也就是 128-255来表示自己国家的字符。
所以 必然有各自国家的编码方式,如中国的 GB2312,GBK等。若使用需了解。