计算机编码问题总结

最新推荐文章于 2021-05-10 15:44:45 发布

FXY.jpg

最新推荐文章于 2021-05-10 15:44:45 发布

阅读量184

点赞数

分类专栏： Linux操作系统笔记文章标签：编码

本文链接：https://blog.csdn.net/weixin_43310928/article/details/85096701

版权

Linux操作系统笔记专栏收录该内容

12 篇文章 0 订阅

订阅专栏

#总结性质文章
1、首先计算机是由美国人发明的，所以最初的编码方式只需要编码英文字母以及一些较少的特殊字符即可，总共128个，用一个字节也就是2的8次方就可以轻松储存，这个就是ascii码
2、随着计算机的发展以及不断的深入，所需要编码的字符数量增加，将近256个，这时候一个字节仍然可以储存，
这一套编码规则就是ascii扩展码
3、全球化的发展，计算机来到了中国，但是中国的汉字光常用的就有3000多个，原来的编码规则根本不适用了，于是中国前辈创造除了一个适用于中国汉字的编码规则，用两个字节表示一个字符，总共16位，首先原来的码数低于127的字符仍然不变，成为半角字符，高8位大于127的编码与低8位大于127的编码组合表示一个字符，这种编码方式为称为GB2312码
4、计算机在中国也在发展，也是要表示的字符越来越复杂，需要增加新的码数，这时候前辈们想出来与GB2312相似的码制，只不过在只要低8位表示的码数大于127就可以与高8位组合表示一个字符，这种编码方式叫做GBK
5、中国的少数民族字符也要加进去，基本形成了一套完整的表示中文字符的码制叫做GB18030
6、全球化仍然在进行中，各个国家都有一套自己的编码规则，造成了之间的交流障碍，这时候ISO组织提出了一种适用于全球化的字符集，用两个字节表示一个字符，半角字符仍然不变，只不过原来8位表示变为了16位表示，也就是高8位为00000000，其他的全球通用字符用两个字节表示。这种字符集称为unicode
7、在网络信息传递的过程需要传输数据，但是像这半角字符等的只用一个字节就能表示的传输的字符仍然需要占用两个字节，造成了资源浪费，随意又推出了一种新的编码方式，以一个八位为一个编码单位的可长编码。有的字符用一个字节，有的字符用两个字节，还有用3个字节的（比如汉字），比较灵活，节省资源，这就是目前全球通用的utf-8编码
8、与utf-8对应的还有utf-16编码，以16位为一个编码单位的可变编码方式，都是为了网络传输过程中节省资源占用率。
注：unicode与utf-8的区别：
unicode是字符集
utf-8是编码规则
首先找到字符对应字符集里面的码值，换成2进制，依据utf-8的编码规则编制成utf-8格式的码制即可。