ASCII编码与Unicode编码

最新推荐文章于 2023-04-22 15:04:08 发布

First Snowflakes

最新推荐文章于 2023-04-22 15:04:08 发布

阅读量1.9k

点赞数

分类专栏： Debug C C C++

本文链接：https://blog.csdn.net/qq_35865125/article/details/104887037

版权

C++ 同时被 3 个专栏收录

115 篇文章 3 订阅

订阅专栏

20 篇文章 0 订阅

订阅专栏

Debug C

5 篇文章 0 订阅

订阅专栏

ASCII码

一个字节(Byte)有8个二进制位，有256种状态，每种状态对应一个符号，就是256个符号，从00000000到11111111。

计算机诞生于美国，早期的计算机使用者大多使用英文，上世纪60年代，美国制定了一套英文字符与二进制位的对应关系，称为ASCII码，沿用至今。

ASCII码规定了128个英文字符与二进制的对应关系，占用一个字节（实际上只占用了一个字节的后面7位，最前面1位统一规定为0）。例如，字母 a 的的ASCII码为 01100001.

Unicode编码

随着计算机的流行，使用计算机的人越来越多，不仅限于美国，整个世界都在使用，这个时候ASCII编码的问题就凸现出来了。

ASCII编码只占用1个字节，最多只能表示256个字符，我大中华区10万汉字怎么表示，日语韩语拉丁语怎么表示？所以90年代又制定了一套新的规范，将全世界范围内的字符统一使用一种方式在计算机中表示，这就是Unicode编码（Unique Code），也称统一码、万国码, 宽字符。

Unicode 是一个很大的集合，现在的规模可以容纳100多万个符号，每个符号的对应的二进制都不一样。Unicode 规定可以使用多个字节表示一个字符，例如 a 的编码为 01100001，一个字节就够了，”好“的编码为 01011001 01111101，需要两个字节。

为了兼容ASCII，Unicode 规定前0~127个字符与ASCII是一样的，不一样的只是128~255的这一段。

UTF

UTF 是英文 Unicode Transformation Format 的缩写，意为把 Unicode 字符转换为某种格式。UTF 系列编码方案（UTF-8、UTF-16、UTF-32）均是由 Unicode 编码方案衍变而来，以适应不同的数据存储或传递，它们都可以完全表示 Unicode 标准中的所有字符。目前，这些衍变方案中 UTF-8 被广泛使用，而 UTF-16 和 UTF-32 则很少被使用。

UTF-8 使用一至四个字节为每个字符编码，其中大部分汉字采用三个字节编码，少量不常用汉字采用四个字节编码。因为 UTF-8 是可变长度的编码方式，相对于 Unicode 编码可以减少存储占用的空间，所以被广泛使用。

UTF-16 使用二或四个字节为每个字符编码，其中大部分汉字采用两个字节编码，少量不常用汉字采用四个字节编码。UTF-16 编码有大尾序和小尾序之别.

UTF-32 使用四个字节为每个字符编码，使得 UTF-32 占用空间通常会是其它编码的二到四倍。

https://home.unicode.org/

http://tool.chinaz.com/Tools/Unicode.aspx

C语言中的宽字符类型处理：

https://www.cnblogs.com/qiumingcheng/p/11334777.html

First Snowflakes

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
ASCII编码与Unicode编码

ASCII码一个字节(Byte)有8个二进制位，有256种状态，每种状态对应一个符号，就是256个符号，从00000000到11111111。计算机诞生于美国，早期的计算机使用者大多使用英文，上世纪60年代，美国制定了一套英文字符与二进制位的对应关系，称为ASCII码，沿用至今。ASCII码规定了128个英文字符与二进制的对应关系，占用一个字节（实际上只占用了一个字节的后面7位...
复制链接

扫一扫