ASCII和Unicode；Unicode和utf-8

最新推荐文章于 2023-03-13 18:07:45 发布

HunZiTuoErSuo

最新推荐文章于 2023-03-13 18:07:45 发布

阅读量48

点赞数

分类专栏：基础文章标签： unicode

本文链接：https://blog.csdn.net/qq_36822418/article/details/118244221

版权

基础专栏收录该内容

1 篇文章 0 订阅

订阅专栏

ASCII

ASCII用一个byte编码

超出一个byte编码的用Unicode
所以Unicode涵盖了ASCII

Unicode

一个Unicode对应一个十六进制数字（16bit）
如：

I 0049
t 0074
' 0027
s 0073
  0020
知 77e5
乎 4e4e
日 65e5
报 62a5

二进制保存：

I 00000000 01001001
t 00000000 01110100
' 00000000 00100111
s 00000000 01110011
  00000000 00100000
知 01110111 11100101
乎 01001110 01001110
日 01100101 11100101
报 01100010 10100101

英文的前8位都是0，浪费空间

怎么办？
UTF

UTF-8

单字节字符，字节第一位设为0；英语只占用一个字节

n个字节的字符(n>1)，第一个字节的前n位设为1，第n+1位设为0，后面字节的前两位都设为10，这n个字节的其余空位填充该字符unicode码，高位用0补足。

0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

示例就表示成：

I 01001001
t 01110100
' 00100111
s 01110011
  00100000
知 11100111 10011111 10100101
乎 11100100 10111001 10001110
日 11100110 10010111 10100101
报 11100110 10001010 10100101

HunZiTuoErSuo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ASCII和Unicode；Unicode和utf-8

Unicode一个Unicode对应一个十六进制数字（16bit）如：I 0049t 0074' 0027s 0073 0020知 77e5乎 4e4e日 65e5报 62a5二进制保存：I 00000000 01001001t 00000000 01110100' 00000000 00100111s 00000000 01110011 00000000 00100000知 01110111 11100101乎 01001110 01001110日 01100
复制链接

扫一扫