java编码问题详解

最新推荐文章于 2021-09-17 18:55:18 发布

Six Gods

最新推荐文章于 2021-09-17 18:55:18 发布

阅读量396

点赞数 2

分类专栏： java学习文章标签： java 编码问题 Encoding Decoding

本文链接：https://blog.csdn.net/Gldwolf/article/details/89444996

版权

java学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

import java.io.UnsupportedEncodingException;
import java.util.Arrays;

/*
    编码： 字符变成字节数组

    解码： 字节数组变成字符串

    String --> byte[]  :   str.getBytes()
    byte[] --> String  :   new String(byte[])
 */

public class EncodeDemo {
    public static void main(String[] args) throws UnsupportedEncodingException {
        /*
            示例一：
                用相同的字符集编码和解码（UTF-8）
        */
        String str = "你好";
        byte[] bytes = str.getBytes("UTF-8");  // 用UTF-8字符集将“你好”转换成字节数组
        System.out.println(Arrays.toString(bytes));  // 打印编码后的字节数组: [-28, -67, -96, -27, -91, -67]

        str = new String(bytes, "UTF-8");  // 用UTF-8字符集将字节数组转换成字符串
        System.out.println(str);    // 你好

        /*
            示例二：
                用UTF-8编码，用UTF-8编码，再用ISO8859-1(拉丁字符集)解码，
                再用ISO8859-1编码，最后用UTF-8解码，可以再转换成相应的中文。
            注：ISO8859-1没有中文字符集，会将中文字符转换成不能识别的字符，然后可以再通过编码转换成原来的字节数组，
                再经过UTF-8解码成原有的中文。
        */

        bytes = str.getBytes("UTF-8");  // 用UTF-8字符集将“你好”转换成字节数组
        System.out.println(Arrays.toString(bytes));  // [-28, -67, -96, -27, -91, -67]
        str = new String(bytes, "ISO8859-1");  // ISO8859-1字符集会将一个字节转换为一个汉字，但由于此字符集中没有中文，所以会出现乱码的情况
        System.out.println(str);  // 打印结果：ä½ å¥½
        bytes = str.getBytes("ISO8859-1");  // 再将转换后的乱码重新编码，此时又会得到原来的字节数组
        str = new String(bytes, "UTF-8");  // 再经UTF-8解码以后，又会得到原来的汉字
        System.out.println(str);  // 打印：你好

        /*
            示例三：
                用GBK编码，用UTF-8解码
                两种字符集都有汉字编码
                但是GBK字符集一个汉字会转换成两个字节，而UTF-8字符集有可能是一个，有可能是两个，也有可能是三个
                那么，UTF-8是怎么确定该字符是由一个字节还是两个或者三个字节来组成的呢？
                它会根据字节数组的标头来判断：（转换成二进制后）
                    '\u0001' 到 '\u007F' 范围内的所有字符都是用单个字节表示的：
                            即第一个字节以0开头，那么该字符由一个字节组成
                    null 字符 '\u0000' 以及从 '\u0080' 到 '\u07FF' 的范围内的字符用两个字节表示：
                            即第一个字节以110开头，且下一个二进制数以10开头，那么该字符由两个字节组成
                    '\u0800' 到 '\uFFFF' 范围内的 char 值用三个字节表示：
                            即第一个字节以111开头，且后两个字节以10开头，那么该字符由三个字节组成
         */
        bytes = str.getBytes("GBK");  // GBK的汉字编码将一个字符转换为两个字节： [-60, -29, -70, -61]
        System.out.println(Arrays.toString(bytes));  // [-60, -29, -70, -61]
        str = new String(bytes, "UTF-8");
        System.out.println(str);  // 打印结果：���
        // 注：再将错误的字符用UTF-8编码后，并不能再得到原来的数组，因为在最初的解码时，UTF-8字符集会用一个相似的字符去代替不能正确解码的字符，
        // 所以再用UTF-8编码时并不能再得到原来的字节数组，继而用原有的字符集解码不能再得到原来的汉字
        bytes = str.getBytes("UTF-8");
        System.out.println(Arrays.toString(bytes));  // 打印：[-17, -65, -67, -17, -65, -67, -17, -65, -67]
        str = new String(bytes, "GBK");
        System.out.println(str);  // 打印： 锟斤拷锟�
    }
}

Six Gods

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
java编码问题详解

import java.io.UnsupportedEncodingException;import java.util.Arrays;/* 编码：字符变成字节数组解码：字节数组变成字符串 String --> byte[] : str.getBytes() byte[] --> String : new String(byt...
复制链接

扫一扫