几种常见的编码格式

最新推荐文章于 2024-05-30 07:30:00 发布

weixin_34388207

最新推荐文章于 2024-05-30 07:30:00 发布

阅读量202

点赞数

原文链接：http://blog.51cto.com/yuke198907/1340838

版权

一、编码的原因

1、计算机中存储信息的最小单元是一个字节，即8个bit，所以能表示的字符范围是0-255个。

2、人类要表示的符号太多，无法用一个字节来完全表示。

二、常见的编码格式

1、ASCII码

学过计算机的人都知道ASCII码，总共有128个，用一个字节的低7位表示，0-31是控制字符如换行、回车、删除等，32-126是打印字符，可以通过键盘输入并且能够显示出来。

2、ISO-8859-1

128个字符显然是不够用的，于是ISO组织在ASCII码基础上又制定了一系列标准用来扩展ASCII编码，它们是ISO-8859-1~ISO-8859-15,其中ISO-8859-1涵盖了大多数西欧语言字符，所以应用得最广泛。ISO-8859-1仍然是单字节编码，它总共能表示256个字符。

3、GB2312

它的全称是《信息交换用汉字编码字符集基本集》，它是双字节编码，总的编码范围是A1~F7，其中A1~A9是符号区，总共包含682个符号，从B0~F7是汉字区，包含6763个汉字。

4、GBK

全称叫《汉字内码扩展规范》，是国家技术监督局为Windows95所制定的新的汉字内码规范，它的出现是为了扩展GB2312，加入更多的汉字，它的编码范围是8140~FEFE（去掉XX7F），总共有23940个码位，它能表示21003个汉字，它的编码是和GB2312兼容的，也就是说用GB2312的汉字可以用GBK来解码，并且不会有乱码。

5、GB18030

全称是《信息交换用汉字编码字符集》，是我国的强制标准，它可能是单字节、双字节或者四字节编码，它的编码与GB2312编码兼容，虽然是国家标准，但是实际应用系统中使用的不广泛。

6、UTF-16

说到UTF必须提到Unicode（Universal Code统一码），ISO试图创建一个全新的超语言字典，世界上所有的语言都可以通过这本字典来相互翻译。可想而知这个字典是多么复杂。UTF-16具体定义了Unicode字符在计算机中的存取方法。UTF-16用两个字节来表示Unicode转化格式，它是定长的表示方法，不论什么字符都可以用两个字节来表示，两个字节是16个bit，所以叫UTF-16。UTF-16表示字符非常方便，每两个字节表示一个字符。

7、UTF-8

UTF-16统一采用两个字节表示一个字符，虽然在表示上非常简单方便，但是也有其缺点，有很大一部分字符用一个字节就可以表示的现在要用两个字节表示，存储空间放大了一倍，在现在的网络宽带还非常有限的情况下，这样会增大网络传输的流量，而且也没有必要。而UTF-8采用了一种变长技术，每个编码区域有不同的字码长度。不同类型的字符可以有1~6个字节组成。

UTF-8有以下编码规则：

A、如果一个字节，最高位（第8位）为0，表示这是一个ASCII字符（00~7F）。可见，所有ASCII编码已经是UTF-8了。

B、如果一个字节，以11开头，连续的1的个数暗示这个字符的字节数，例如：110xxxxx代表它是双字节UTF-8字符的首字节。

C、如果一个字节，以10开始，表示它不是首字母，需要向前查找才能得到当前字符的首字符。

转载于:https://blog.51cto.com/yuke198907/1340838

weixin_34388207

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
几种常见的编码格式

一、编码的原因1、计算机中存储信息的最小单元是一个字节，即8个bit，所以能表示的字符范围是0-255个。2、人类要表示的符号太多，无法用一个字节来完全表示。二、常见的编码格式1、ASCII码学过计算机的人都知道ASCII码，总共有128个，用一个字节的低7位表示，0-31是控制字符如换行、回车、删除等，32-126是打印字符，可以通过键盘输入并且能...
复制链接

扫一扫