20210214编码与解码

ASCⅡ字符集

可见字符:英文字母、数字、标点符号(0-31、127,共33个)
控制字符:回车、换行等(32-126,共95个)
最初的编码:

码位解释二进制信息(ASCII码)
0空字符0000 0000
1标题开始0000 0001
2正文开始0000 0010
10换行0000 1010
13回车0000 1101
31单元分隔符0001 1111
32空格0010 0000
330010 0001
4800011 0000
65A0100 0001
90Z0101 1010
99a0110 0001
122z0111 1010
127删除0111 1111

所以ASCII码只能表示0000 0000- 0111 1111共128个字符

扩展ASCII字符集及扩展ASCII码

欧洲人扩展了ASCII字符集,1000 0000-1111 1111,扩展了128个

GB2312

当电脑来到中国,256个字符依然不够用,因此用16位表示一个字符
先设计字符集,才能对字符集编码
使用分区管理,共计94个区,每个区含94个位,共8836个码位
01-09区收录除汉字外的682个字符
10-15区为空白区,没有使用
16-55区收录3755个一级汉字,按拼音排序
56-89区收录3008个二级汉字,按部首/笔画排序
88-94区为空白区,没有使用
比如:侃字码位5709
在这里插入图片描述
经过运算侃字的GB2312码为0xD90xA9
GB2312高位和低位都大于127

GBK

GB2312仍然遗漏了很多汉字,因此不再规定低位大于127,高位大于127,变为GBK编码,新增近20000个汉字和符号

GB18030

新增几千少数民族字符

Unicode

把世界所有字符都放在一起,并编号
最初采用UCS-2字符集,可表示2^16个字符
UCS-4字符集,可表示2^32个字符,需要存储空间较大,很长时间没有被各国接受

UTF-8

每次传输8位数据,并且是一种可变长的编码格式。
具体将UCS-4字符集码位划分为4个区间

UCS-4区间UTF-8码位
0x0000 0000-0x0000 007F0xxxxxxx
0x0000 0080-0x0000 07FF110xxxxx 10xxxxxx
0x0000 0800-0x0000 FFFF1110xxxx 10xxxxxx 10xxxxxx
0x0001 0000-0x0010 FFFF11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值