编码与乱码

最新推荐文章于 2020-11-14 14:17:27 发布

流浪者S

最新推荐文章于 2020-11-14 14:17:27 发布

阅读量379

点赞数

分类专栏：编程小知识文章标签：编码乱码 ASCII UTF-8 GBK

编程小知识专栏收录该内容

1 篇文章 0 订阅

订阅专栏

编码与乱码

1. 常用编码介绍

ASCII 规定单子字符的录入

ISO-8859-1 规定英文的录入

GB2312 规定中文的录入

GBK 中文码表

UTF-8 中文码表

unicode 万国码，统一码

ASCII码：

总共128个，用一个字节的低7位表示，0~31是控制字符，如换行、回车、删除等，32~126是打印字符，可以通过键盘输入并且能够显示出来。

ISO-8859-1：

扩展自ASCII，仍然是单字节编码，一共能表示256个字符。

GB2312：

双字节编码。总编码范围A1~F7 ，其中A1~A9是符号区，包含682个符号，从B0~F7是汉字区，包含6763个汉字。

GBK：

扩展自GB2312，能表示21003个汉字，其编码和GB2312是兼容的。GBK的文字编码是用双字节来表示的，即不论中、英文字符均使用双字节来表示，为了区分中文，将其最高位都设定成1。GBK包含全部中文字符。

Unicode：

Unicode 是 Java 和 XML 的基础，使用0～65 535的双字节无符号数对每一个字符进行编码。

UTF-8：

是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24为（三个字节）来编码，使用Unicode编码，一个英文字符要占用两个字节，在Internet上，大多数的信息都是用英文来表示的，如果都采用Unicode编码，将会使数据量增加一倍。为了减少存储和传输英文字符数据的数据量，可以使用UTF-8编码。

GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换：

GBK、GB2312－－Unicode－－UTF8

UTF8－－Unicode－－GBK、GB2312

2、对乱码产生过程的分析

为了让使用Java语言编写的程序能在各种语言的平台下运行，Java在其内部使用Unicode字符集来表示字符，这样就存在Unicode字符集和本地字符集进行转换的过程。当在Java中读取字符数据的时候，需要将本地字符集编码的数据转换为Unicode编码，而在输出字符数据的时候，则需要将Unicode编码转换为本地字符集编码。

例如，在中文系统下，从控制台读取一个字符“中”，实际上读取的是“中”的GBK编码0xD6D0，在Java语言中要将GBK编码转换为Unicode编码0x4E2D，此时，在内存中，字符“中”对应的数值就是0x4E2D，当我们向控制台输出字符时，Java语言将Unicode编码再转换为GBK编码，输出到控制台，中文系统再根据GBK字符集画出相应的字符。