《深入分析Java WEB技术内幕》第三章深入分析Java Web中的中文编码问题

最新推荐文章于 2021-02-16 10:53:06 发布

源大郎

最新推荐文章于 2021-02-16 10:53:06 发布

阅读量134

点赞数

分类专栏： JavaWeb 文章标签： java

本文链接：https://blog.csdn.net/qq_38732834/article/details/107133781

版权

JavaWeb 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

常用编码格式

ASCII

总共128个，用一个字节的第7位表示，0~31是控制字符，32 ~126是打印字符

ISO-8859-1

256字符，单字节编码，涵盖绝对大多数西欧编码

GB3212

中文编码字符集，双字节编码，A1～A9符号区，B0 ~F7汉字区，包含6763个汉字

GBK

汉字内码扩展规范
为了拓展GB3212，加入更多汉字，与GB2312兼容

UTF-16

Unicode，统一码，试图包含世界中所有的编码。UTF-16用两个字节来表示Unicode的转化格式，采用定长表示法，Java就是以UTF-16作为内存的字符存储格式

UTF-8

由于UTF-16是以两个字节来表示一个字符，大多数字符只需要一个字节就够了，UTF-8采用一种变长的技术，每个编码区域有不同的字码长度，不同类型可由1~6字节组成。
规则是，如果1个字节，则最高位为0，表示一个ASCII码；如果有一个11开头的，则连续的1的个数则暗示这个字符的字节数；如果一个字节，以10开始，表示它不是首字节，则需要向前查找才能得到当前字符的首字节。
可见UTF-8验证

在Java中需要编码的场景

IO操作中

在字节->字符,一般使用InputStreamReader，它是委托StreamDecoder去完成的，它需要由用户指定Charset，如果没有指定则默认使用本地环境的字符集。
输出也是一样的。
注意输入时，与输出的时的编码解码得保持一致。

在内存中编码

在内存中实现字符到字节的转换。
比如"dasdasdas".getBytes("UTF-8");

在Java中如何编码

可见默认的是UTF-8(主要还是因为本机系统编码格式是UTF-8，如果是Windows的话，就是GBK了)
在这里插入图片描述
可以看出中文字符在ISO编码中全是3f对应的解码就是？
而UTF-16中，所有的字符都扩容到两个字节来编码。
从String->byte主要是以上几个步骤：
1.0String变为StringCoding:1.getBytes(charsetName)
1.1 encode：根据指定编码格式编码
1.2 查询Charset：lookupCharset->Charset.forName：查找编码格式的编码规则
1.3 根据查找到的编码格式新建StringEncoder对象
1.4 创建编码对象和解码对象。
2.通过编码器转换为byte数组

总结

GBK汉字范围大于GB2312
UTF-16编码效率较高，适用于本地磁盘和内存之间使用，网络传输效率不高。
UTF-8适用于网络传输，是最理想的中文编码格式。

常见问题

1.编码解码不对应
2.一个问号，中文字符用了不支持中文的编解码
3.两个问号，经历了不支持中文的编码，再用双字节编码格式
4.System.out.println(new String(new String(name.getBytes("GBK"),"ISO-8859-1").getBytes("ISO-8859-1"),"GBK"));这样子是合法的，只要中间只要按照其他解编码顺序，且成对。