初识字符编码

先来听个故事

我们都知道,计算机的语言 二进制,在计算机中 使用二进制代表所有数据

一开始 USA人用 1个字节 其中的低七位 也就是 128个数来表示他们的 字母和字符 如 A:65

这就出现最初的编码方式 ASCii码

但是 问题就来了 其他国家也要 使用计算机吧 不能让USA 自己发展吧

那其他国家也有自己的语言吧,所以有的国家使用了整一个字节,但相对于 亚洲国家的语言,显然一个字节是远远不够的。

同时 每个国家都对 0-127 之后的位数有各自的定义。导致自己做的东西不能 出售到别的国家。这肯定就顶不住了呀。

所以,一开始人们就提出了 “内码表” 的概念,利用 “内码表” 程序就可以切换到相应语言。

但涉及到多种语言时,就要频繁的切换,这就导致了程序996,这程序不干呀

最终,USA人提出了一种标准方案,用来表示全部的语言字符-------Unicode字符集就诞生了

Unicode字符集 的想法很简单 就是将每个字符指定一个数字 仅此而已

那么 新的问题又出现了,那么多的字符,定义有的是一个字节,有的则是2.3.4个字节。

那有一个 N 字节的数字,计算机如何知道 你是这 N 个字节是表示一个字符呢,还是表示N个字符呢。一开始想的 简单粗暴的方法是 以最大的字节 去表示所有字符,不够的往前面补0。这样是很简单的解决了编码的问题。但我搬家总共就一条裤衩的行李,你叫一卡车来载。不就造成了极大的空间资源浪费么。

所以为了较好的解决编码问题就诞生了,UTF - 8,16,32 等编码方式。

UTF-8:因其单个字节时,编码方式与ASCII码完全相同,所以其与之前的ASCII码兼容。

单个字节时,与ACSII相同,第一位为0,后面的 7 位对应这个字符的 Unicode 码点

N个字节时,第一个字节最高的N位为1,N+1位为0.其它的N-1个字节高两位为10,其它按这个字符的 Unicode
码点填充,不够前面补0.

UTF-16:unicode字符集是可以无限延伸的,其由 基本平面,辅助平面
两部分组成,基础平面字符长度占两个字节,辅助平面字符长度占四个字节。也就是说UTF-16
编码长度只能为两个或四个字节。关于如何分清是读四个字节还是两个字节这点,在基本平面内,从 U+D800 到 `U+DFFF 是一个空段,即这些码点不对应任何字符。因此,这个空段可以用来映射辅助平面的字符。

注:上面说过 各个国家有使用 ASCII码的最高位 也就是 128-255来表示自己国家的字符。

所以 必然有各自国家的编码方式,如中国的 GB2312,GBK等。若使用需了解。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值