java中含中文字符串的编码和解码问题

最新推荐文章于 2024-09-29 08:10:07 发布

TuxedoLinux

最新推荐文章于 2024-09-29 08:10:07 发布

阅读量977

点赞数

分类专栏： JAVA

JAVA 专栏收录该内容

92 篇文章 0 订阅

订阅专栏

java中含中文字符串的编码和解码问题。

1、在java开发中经常被文字乱码的问题困扰。下面全面解释下字符串的编码和解码。

如 String str = "中国"

编码：byte[] bts = str.getBytes("编码方式");//常用编码方式 gbk、utf-8、gb2312、iso-8859-1等等。

解码：String b = new String(bts,"解码方式");//解码方式对应常用编码方式。

2、常识：正常（正常显示的字符串无乱码）解码后的字符串对象可以用任意方式编码。但解码要正常显示，必须用对应的编码方式解码。（对于中文要保证正常显示必须采用中文编码/解码方式）

如 String str = "中国";//这个就是正常显示的字符串

以下任意方式（中文）编码/解码-----------

String b1 = new String(str.getBytes("gbk"),"gbk");

String b2 = new String(str.getBytes("utf-8"),"utf-8");

String b3 = new String(str.getBytes("gb2312"),"gb2312");

以上三种方式的字符串对象都是采用中文方式编码/解码，所以都会是正常并无乱码。

3、当没采用对应方式解码时（也就是所谓的乱码）怎么转成正常显示而无乱码。

如 String str = "中国";

String b1 = new String(str.getBytes("gbk"),"gbk");//这里的b1就是采用的gbk的方式解码的：：：：b1不会乱码的

String b2 = new String(b1.getBytes(),"utf-8");//这里对b1编码后的字节数组重新用utf-8而没有用对应的gbk方式解码。：：：：：b2将会是乱码的

以下开始将乱码转成正常显示

String b3 = new String(b2.getBytes("utf-8"),"gbk")//这里编码方式（utf-8）必须用上述b2的解码方式,而解码方式（gbk）必须用b1的解码方式。因为是b2把正常显示的b1解码成乱码。：：：：：：：b3不会是乱码的。

在实际应用中出现的乱码，都是这个原因造成的，乱码不是不可逆的，上述步骤就是一个逆转的过程。

4常见应用举例。

在web开发中，tomcat对于传输的字符串都是采用iso-8859-1编码/解码方式。而客户端（浏览器端对于中文都是用gbk或utf-8中文编码/解码方式），所以传到后台都会是乱码的。容器一般都是有处理的，所以中文能正常显示和存储。但有些情况也是会出现乱码的，解决方式如下

String b = new String(str.getBytes("iso-8859-1","客户端的编码/解码方式")//中文解码方式一般用的是utf-8或者gbk。

如：

String b1 = new String(str.getBytes("iso-8859-1","utf-8");

Java字符串所占字节数的小总结

首先，char为Java的基本类型，基本类型所占的字节数是固定的，如int占4字节，double占8字节，这可以使得Java在不同的平台上所占类型固定，很好地保证了Java的可移植性。因此，Java中char类型固定占2个字节。（注：char类型也可以存储一个汉字）。
其次，String采用一种更灵活的方式进行存储。在String中，一个英文字符占1个字节，而中文字符根据编码的不同所占字节数也不同。在UTF-8编码下，一个中文字符占3个字节；而使用GBK编码时一个中文字符占2个字节。测试代码如下：

import java.io.UnsupportedEncodingException;

public class StrTest {

    public static void main(String[] args) throws UnsupportedEncodingException {
        String str1 = "hello";
        String str2 = "你好abc";

        System.out.println("utf-8编码下'hello'所占的字节数:" + str1.getBytes("utf-8").length);
        System.out.println("gbk编码下'hello'所占的字节数:" + str1.getBytes("gbk").length);

        System.out.println("utf-8编码下'你好abc'所占的字节数:" + str2.getBytes("utf-8").length);
        System.out.println("gbk编码下你好'你好abc'所占的字节数:" + str2.getBytes("gbk").length);
    }

}

输出结果：
utf-8编码下’hello’所占的字节数: 5
gbk编码下’hello’所占的字节数: 5
utf-8编码下’你好abc’所占的字节数: 9
gbk编码下你好’你好abc’所占的字节数: 7

由此可见，对也String来说，一个英文字符固定占1个字节，而中文字符占2个（GBK编码）或3个（UTF-8编码）字节。也可使用此方法查看其它编码的情况，此处不再一一赘述。

最后，基于String的这种特性，可以判断一个字符串中是否包含中文，举例如下：

public class StrTest {

    public static void main(String[] args) throws UnsupportedEncodingException {
        searchChineseCharacter("Good morning");
        searchChineseCharacter("hello 早上好");
    }

    //找出一个字符串中的汉字
    public static void searchChineseCharacter(String str){
        //正则表达式，用于匹配中文字符
        String regex = "[\u4e00-\u9fa5]";

        //如果str的长度和其所占字节数不等，说明包含中文
        if (str.length() != str.getBytes().length){
            Pattern pattern = Pattern.compile(regex);
            Matcher matcher = pattern.matcher(str);
            System.out.print("'" + str + "' 中的汉字为:");

            while (matcher.find()){
                System.out.print(matcher.group());
            }
        }

        else {
            System.out.println("'" + str + "' 中无汉字");
        }
    }

}
  
  1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29