java中unicode utf-8以及汉字之间的转换工具类

最新推荐文章于 2024-03-12 12:03:00 发布

艾慕达

最新推荐文章于 2024-03-12 12:03:00 发布

阅读量1.8k

点赞数 1

分类专栏： JAVA SE

本文链接：https://blog.csdn.net/a18716374124/article/details/78855964

版权

JAVA SE 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

1. 汉字字符串与unicode之间的转换

1.1 stringToUnicode

[java]view plain copy 
   
 /** 
  * 获取字符串的unicode编码 
  * 汉字“木”的Unicode 码点为Ox6728 
  * 
  * @param s 木 
  * @return \ufeff\u6728  \ufeff控制字符 用来表示「字节次序标记（Byte Order Mark）」不占用宽度 
  * 在java中一个char是采用unicode存储的 占用2个字节 比如 汉字木 就是 Ox6728 4bit+4bit+4bit+4bit=2字节 
  */  
 public static String stringToUnicode(String s) {  
     try {  
         StringBuffer out = new StringBuffer("");  
         //直接获取字符串的unicode二进制  
         byte[] bytes = s.getBytes("unicode");  
         //然后将其byte转换成对应的16进制表示即可  
         for (int i = 0; i < bytes.length - 1; i += 2) {  
             out.append("\\u");  
             String str = Integer.toHexString(bytes[i + 1] & 0xff);  
             for (int j = str.length(); j < 2; j++) {  
                 out.append("0");  
             }  
             String str1 = Integer.toHexString(bytes[i] & 0xff);  
             out.append(str1);  
             out.append(str);  
         }  
         return out.toString();  
     } catch (UnsupportedEncodingException e) {  
         e.printStackTrace();  
         return null;  
     }  
 }  

测试

[java]view plain copy 
   
 @Test  
 public void testGetUnicode() throws Exception {  
     String str = "木";  
     String s = EncodeUtil.stringToUnicode(str);  
     System.out.println(s);  //Ox6728  
 }  

1.2 unicodeToString

[java]view plain copy 
   
 /** 
      * Unicode转 汉字字符串 
      * 
      * @param str \u6728 
      * @return '木' 26408 
      */  
 public static String unicodeToString(String str) {  
   
     Pattern pattern = Pattern.compile("(\\\\u(\\p{XDigit}{4}))");  
     Matcher matcher = pattern.matcher(str);  
     char ch;  
     while (matcher.find()) {  
         //group 6728  
         String group = matcher.group(2);  
         //ch:'木' 26408  
         ch = (char) Integer.parseInt(group, 16);  
         //group1 \u6728  
         String group1 = matcher.group(1);  
         str = str.replace(group1, ch + "");  
     }  
     return str;  
 }  

测试

[java]view plain copy 
   
 @Test  
 public void testUnicodeToString() throws Exception {  
     String str = "\\u6728";  
     String s = EncodeUtil.unicodeToString(str);  
     System.out.println(s);  //木  
 }  

2. 汉字字符串与UTF-8之间的转换

2.1 ConvertStringToUTF8

[java]view plain copy 
   
 /** 
  * 汉字 转换为对应的 UTF-8编码 
  * @param s 木 
  * @return E69CA8 
  */  
 public static String convertStringToUTF8(String s) {  
     if (s == null || s.equals("")) {  
         return null;  
     }  
     StringBuffer sb = new StringBuffer();  
     try {  
         char c;  
         for (int i = 0; i < s.length(); i++) {  
             c = s.charAt(i);  
             if (c >= 0 && c <= 255) {  
                 sb.append(c);  
             } else {  
                 byte[] b;  
                 b = Character.toString(c).getBytes("utf-8");  
                 for (int j = 0; j < b.length; j++) {  
                     int k = b[j];  
                     //转换为unsigned integer  无符号integer  
                     /*if (k < 0) 
                         k += 256;*/  
                     k = k < 0? k+256:k;  
                     //返回整数参数的字符串表示形式 作为十六进制（base16）中的无符号整数  
                     //该值以十六进制（base16）转换为ASCII数字的字符串  
                     sb.append(Integer.toHexString(k).toUpperCase());  
   
                     // url转置形式  
                     // sb.append("%" +Integer.toHexString(k).toUpperCase());  
                 }  
             }  
         }  
     } catch (Exception e) {  
         e.printStackTrace();  
     }  
     return sb.toString();  
 }  

测试

[java]view plain copy 
   
 @Test  
 public void testConvertStringToUTF8() {  
     String str = "木";  
     String s = EncodeUtil.convertStringToUTF8(str);  
     System.out.println(s);  //E69CA8  
 }  

2.2 ConvertUTF-8ToString

[java]view plain copy 
   
 /** 
  * UTF-8编码 转换为对应的 汉字 
  * 
  * @param s E69CA8 
  * @return 木 
  */  
 public static String convertUTF8ToString(String s) {  
     if (s == null || s.equals("")) {  
         return null;  
     }  
     try {  
         s = s.toUpperCase();  
         int total = s.length() / 2;  
         //标识字节长度  
         int pos = 0;  
         byte[] buffer = new byte[total];  
         for (int i = 0; i < total; i++) {  
             int start = i * 2;  
             //将字符串参数解析为第二个参数指定的基数中的有符号整数。  
             buffer[i] = (byte) Integer.parseInt(s.substring(start, start + 2), 16);  
             pos++;  
         }  
         //通过使用指定的字符集解码指定的字节子阵列来构造一个新的字符串。  
         //新字符串的长度是字符集的函数，因此可能不等于子数组的长度。  
         return new String(buffer, 0, pos, "UTF-8");  
     } catch (UnsupportedEncodingException e) {  
         e.printStackTrace();  
     }  
     return s;  
 }  

测试

[java]view plain copy 
   
 @Test  
 public void testConvertUTF8ToString() {  
     String str = "E69CA8";  
     String s = EncodeUtil.convertUTF8ToString(str);  
     System.out.print(s);  //木  
 }  

3. unicode与utf-8之间的转换

3.1 unicode转为utf8

[java]view plain copy 
   
 //将unicode转换为utf-8  
 @Test  
 public void testUnicodeToUtf8() {  
     String str = "\\u6728";  
     //unicode转换为String String再转换为utf-8  
     String s = EncodeUtil.convertStringToUTF8(EncodeUtil.unicodeToString(str));  
     System.out.println(s);  
 }  

3.2 utf8转为unicode

[java]view plain copy 
   
 //将utf-8转换为unicode  
 @Test  
 public void testUTF8ToUnicode() {  
     String str = "E69CA8";  
     //utf-8先转String String再转unicode  
     String s = EncodeUtil.stringToUnicode(EncodeUtil.convertUTF8ToString(str));  
     System.out.println(s);  
 }  

总结来说：

1. java中的一个char是两个字节，以unicode方式存储在内存中。

2. 一个典型的错误是

[java]view plain copy 
   
 String s = new String(”木”.getBytes(“utf-8”),”gbk”);  

为什么会报错呢？原因是 utf-8编码的字节数组怎能使用gbk来解析呢？一个汉字在utf-8下占用3个字节，而在gbk下占用2个字节，是无法解析的。

3. java中提供了将汉字编码为utf8的方法 UrlEncoder.encode()以及解码的方法UrlDecoder.decode()

参考：

Java unicode中文编码转换和反转

 java 汉字与UTF-8十六进制编码间相互转换方法

 java中char与汉字占用字节个数问题

艾慕达

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
java中unicode utf-8以及汉字之间的转换工具类

1. 汉字字符串与unicode之间的转换1.1 stringToUnicode[java] view plain copy/** * 获取字符串的unicode编码 * 汉字“木”的Unicode 码点为Ox6728 * * @param s 木 * @return \uf
复制链接

扫一扫