2021-11-14

Unicode编码

很多的小伙伴们不了解Unicode编码,现在我来用最简单的方式介绍一下Unicode编码

又来到了这个故事时间:
在很久很久以前,有人想要用八个可以开闭的晶体管来表示世界上的万物,开关就代表着0和1;这八个状态的自由组合就叫做字节
这样就出现了256(2^8)种状态,他们给每种状态赋予特殊的定义。这些有特殊意义的状态我们的称之为状态码

之后,前辈们又用这些状态来表示键盘上的符号,字母,空格,数字,于是就有了刚开始的Ascii"编码(American Standard Code for Information Interchange,美国信息互换标准代码)。当时世界上所有的计算机都用同样的ASCII方案来保存英文文字

越来越多的国家争先恐后的开始用这些状态表示文字,他们决定采用127号之后的空位来表示这些新的字母、符号,还加入了很多画表格时需要用下到的横线、竖线、交叉等形状,一直把序号编到了最后一个状态255。从128到255这一页的字符集被称"扩展字符集"

但是到后来这些个状态不够用了,但是我国还有6000多个汉字尚未保存,我们就智慧地把那些127号之后的奇异符号们直接取消掉,规定:一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节(他称之为高字节)从0xA1用到 0xF7,后面一个字节(低字节)从0xA1到0xFE,这样我们就可以组合出大约7000多个简体汉字了

随着电脑的需求增加,就发展成了GB2312和GB18030,连中国的少数民族的文字也写进去了

这个时候重点来了,各个国家都有着自己的一套编码,不能很好地交流,就出现了Unicode编码的一个雏形
正在这时,大天使加百列及时出现了——一个叫 ISO(国际标准化组织)的国际组织决定着手解决这个问题。他们采用的方法很简单:废了所有的地区性编码方案,重新搞一个包括了地球上所有文化、所有字母和符号的编码!他们打算叫它"Universal Multiple-Octet Coded Character Set",简称 UCS, 俗称 “UNICODE”。
UNICODE 是用两个字节来表示为一个字符,他总共可以组合出65535不同的字符,这大概已经可以覆盖世界上所有文化的符号。如果还不够也没有关系,ISO已经准备 了UCS-4方案,说简单了就是四个字节来表示一个字符,这样就可以有21亿个字符出来,等到银河系统一之后可能这个方案才会被使用。

本文仅做对Unicode编码的简单了解,如果您还想深究的话,可以查阅相关的资料

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值