字符发展历史

最新推荐文章于 2023-08-17 15:41:08 发布

function-maize

最新推荐文章于 2023-08-17 15:41:08 发布

阅读量255

点赞数 1

文章标签：编码字符发展史 ASCII GBK

本文链接：https://blog.csdn.net/dhhjd/article/details/103371896

版权

基础知识：

计算机存储的数据基本单位是位(bit) 也是所谓的二进制数据（0 和 1）
计算机传输的数据基本单位是字节(byte) 一个字节由八个位组成因此一个字节有256种表现形式

js中的进制：

0b 二进制
0o 八进制
0x 十六进制

js中的进制转换：

把任意进制转化为十进制parseInt()
把十进制转化为任意进制toString()

ASCII:
最开始的电脑只在美国使用而ASCII是美国人编出来供自己使用的一套字符编码 0-32规定了特殊用途然后又从32之后把所用的空格，标点，数字，大小写字符一直编到了127 这样就可以通过一个字节表示美国人需要用到的字符

GB2312:
中国人为了表示汉字在ASCII基础上(也就是127之后)规定了一个小于127的字符的意义与原来相同但两个大于127的字符连在一起时就表示一个汉字；前面的一个字节称为高字节(0xA1-0xF7) 后面一个字节称为低字节(0xA1-0xFE)；这样我们就可以组合出大约7000多个(247 - 161) * (254 - 161) = (7998)简体汉字了；另外还把原来的ASCII编码中的字符都重新编码成了两个字节长度的编码这就是全角字符 127一下的那些就叫做半角字符；把这种汉字方案叫做GB2312 这是对ASCII的扩展

GBK：
由于中国汉字太多于是干脆不在要求低字节(也就是第二个字节)一定是127之后只要第一个字节是大于127就表示这是一个汉字的开始便又增加了近两万个新的汉字(包括繁体)和符号

GB18030 / DBCS:
后来又加了几千个新的少数民族的字 GBK扩展成了GB18030 通常也叫做DBCS(双字节字符集)

Unicode:
由于这样编码每个国家都需要一套字符集于是ISO国际组织废弃了所有地区性编码方案重新搞了一个包含地球上所有文化，所有字母和符的编码 Unicode是一个很大的集合现在规模可以容纳100多万个符号
Unicode通常用两个字节表示一个字符

UTF-8:
Unicode在很长一段时间无法推广直到互联网的出现为了解决传输的问题于是面向传输的众多UTF标准出现
UTF-8就是互联网上使用最为广泛的一种Unicode的实现方式
UTF-8就是每次以8个位为传输单位
UTF-8最大的特点就是他的一种变长的编码方式
Unicode一个中文字符占两个字节而UTF-8占3个字节
UTF-8是Unicode的实现方式之一

function-maize

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字符发展历史

基础知识：计算机存储的数据基本单位是位(bit) 也是所谓的二进制数据（0 和 1）计算机传输的数据基本单位是字节(byte) 一个字节由八个位组成因此一个字节有256种表现形式js中的进制：0b 二进制0o 八进制0x 十六进制js中的进制转换：把任意进制转化为十进制parseInt()把十进制转化为任意进制toString()ASCII:最开始的电脑只在美国...
复制链接

扫一扫