字符到编码的流程

字符->编码

1. 字符表 (Character repertoire)

普通的字符

2. 字符集 (CS: Coded Character Set)

字符和对应的数字

3. 字符编码表 (CEF: Character Encoding Form)

将字符对应的数字,映射为字节存储

4. 字符编码方案 (CES:Character Encoding Scheme)

对于CEF得到的比特值具体如何在计算机中进行存储,传输。因为存在大端小端的问题,这就会跟具体的操作系统相关了。
好像和BOM有点关系

Unicode

Unicode是字符集

UCS-2

本来按照UCS-2编码表需要每个字符占两个字节.
比如字符”I”和字符”日”

I 00000000 01001001
日 01100101 11100101

可以看出来,英文字符”I” 编码的前九位都是0, 非常的浪费。

UTF-8

UTF-8总体上可以减少浪费
它把编码的前一位或几位用作标识,让计算机知道需要把一个字节当作一个字符,还是多个字节当作一个字符
这样就可以只用一个字节来表示英文

I 01001001
日 11100110 10010111 10100101

BOM(Byte Order Mark)

因为有看到UTF-8 WITH BOM 这种选项,就了解一下BOM是什么东西.

  • UTF-8
    在传输过程中, UTF-8是以单字节作为一个编码单元传输, 对面的机器收到之后,不用多想, 直接去理解就好了.
  • UTF-16
    在传输过程中, UTF-16有时候是以双字节作为一个编码单元传输,对面机器收到之后, 按照不同的场景来读取, 有的场景里是大端字节序,先读到的就是高位字节,后读到的就是低位字节。反之亦然.
    为了保证最后的顺序都是传输之前的顺序,所以需要BOM放在文件开头来做个标记, 也不知道这样理解对不对
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值