Java中文编码问题

程序猿学习笔记

于 2021-06-22 17:46:31 发布

阅读量203

点赞数

文章标签： java

本文链接：https://blog.csdn.net/Q171877/article/details/118108623

版权

本文介绍了字符编码的基本概念，包括ASCII、ISO-8859-1、GB2312、GBK、UTF-16和UTF-8等常见编码格式。重点讨论了在存储和网络传输过程中可能出现的编码问题，如乱码、字符长度变化等，并分析了这些问题的原因。同时，强调了解决编码问题的关键在于确保一致的编码与解码方式。

摘要由CSDN通过智能技术生成

计算机中存储信息的最小单位为byte字节，由8个bit位组成，只能表示0～255个字符，而汉字符号太多，无法用一个字节完全表示。
因此需要一个新的字符结构char，从char到byte必须通过编码实现。

ASCII码与ISO-8859-1
单字节编码。ASCII用一个字节的低7位表示，可表示00-7F共128个字符；ISO-8859-1是ASCII的扩展，可表示256个字符。
GB2312与GBK
双字节编码。GBK《汉字内码扩展规范》是GB2312《信息交换用汉字编码字符集基本集》的扩展，与其兼容。
UTF-16与UTF-8
UTF-16具体定义了Unicode（Universal Code 统一码）字符在计算机中的存取方法，用两个字节来表示Unicode转化格式，定长，不论什么字符都可以用两个字节表示。编码效率高但占用内存空间。适合本地磁盘与内存之间使用，如Java的内存编码。
UTF-8采用变长技术，每个编码区域有不同的字码长度，不同类型的字符可以由1～6个字节组成。汉字采用三个字节。适合网络传输。

存储数据-->磁盘（内存操作）；数据经过网络传输（I/O操作，磁盘与网络I/O）。需了解这些地方的框架/系统是怎么对数据进行编码控制的。

关注