关闭

【Java编程高级进阶】java 获取 string 字符串的编码详解

标签: javastringservletURLencode编码
13796人阅读 评论(23) 收藏 举报
分类:

刚刚研究的一个问题“Java同样的汉字在服务器和本地的电脑上URLencode 出来的结果不一致”也涉及了字符串的编码格式。

最简单的方法就是:Charset.defaultCharset();

Servlet中可以使用:request.getCharacterEncoding();

也可以使用上文提到的,不过也不那么简单:

dfltEncName = (String)AccessController.doPrivileged(new GetPropertyAction("file.encoding")); 

也有一些其它方式可以参考,如下面这个就比较麻烦了!

public static String getEncoding(String str) {      
       String encode = "GB2312";      
      try {      
          if (str.equals(new String(str.getBytes(encode), encode))) {      //判断是不是GB2312
               String s = encode;      
              return s;      //是的话,返回“GB2312“,以下代码同理
           }      
       } catch (Exception exception) {      
       }      
       encode = "ISO-8859-1";      
      try {      
          if (str.equals(new String(str.getBytes(encode), encode))) {      //判断是不是ISO-8859-1
               String s1 = encode;      
              return s1;      
           }      
       } catch (Exception exception1) {      
       }      
       encode = "UTF-8";      
      try {      
          if (str.equals(new String(str.getBytes(encode), encode))) {   //判断是不是UTF-8
               String s2 = encode;      
              return s2;      
           }      
       } catch (Exception exception2) {      
       }      
       encode = "GBK";      
      try {      
          if (str.equals(new String(str.getBytes(encode), encode))) {      //判断是不是GBK
               String s3 = encode;      
              return s3;      
           }      
       } catch (Exception exception3) {      
       }      
      return "";        //如果都不是,说明输入的内容不属于常见的编码格式。

2017-02-10更新

纠正对”Charset.defaultCharset()“的错误理解,Charset.defaultCharset()“方法的注释内容是返回此Java虚拟机的默认字符集。默认字符集在虚拟机启动期间确定,并且通常取决于底层操作系统的区域设置和字符集。而字符串的编码是受来源影响的!

但是如”Java同样的汉字在服务器和本地的电脑上URLencode 出来的结果不一致“中提到的,Charset.defaultCharset()“实际上是返回的”file.encoding“,也就是文件采用的编码。

使用”System.getProperties()“ 可以得到如下几种编码相关的属性:

file.encoding.pkg=sun.io

sun.jnu.encoding=GBK

file.encoding=UTF-8

sun.io.unicode.encoding=UnicodeLittle

sun.cpu.endian=little

sun.jnu.encoding 猜测是系统的默认编码,参考:

关于 Java 的系统属性 sun.jnu.encoding 和 file.encoding 的区别
sun.jnu.encoding 影响文件名的创建,而 file.encoding 则影响到文件内容。
所以说,在我们使用 Java 处理中文文件的时候,如果发现文件的中文内容没有乱码,而文件的中文名发生乱码,我们就应当多考虑一下 sun.jnu.encoding 和 file.encoding 的区别了。

file.encoding 处理文件内容默认使用的编码;

使用Eclipse main 方法测试时,会自动根据文件内容的编码确定启动JVM使用的编码,如下图:


如果在这里配置了和文件编码不同的编码方式,文件中的字符串输出可能就会产生乱码,如下面的代码输出为:

ISO-8859-1
?????????? ?????18

	public static void main(String[] args) {
		Properties pro = System.getProperties();
		System.out.println(pro.getProperty("file.encoding"));
		
		try {
			String destination = new String("中文エキサイト네이버 중국어사전17");
			if(destination.equals(new String(destination.getBytes("GB2312"), "GB2312")))
			{
				System.out.println(destination);
			}
			
			destination = new String("中文エキサイト네이버 중국어사전18");
			if(destination.equals(new String(destination.getBytes("utf-8"), "utf-8")))
			{
				System.out.println(destination);
			}
		} catch (UnsupportedEncodingException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
由于文件的编码是”UTF-8“,而调试配置的是:ISO-8859-1
上面的代码我们创建一个名为 ”CharsetTest3.java“的文件,在CMD下编译执行:

打开CMD,切换到文件所在目录:

D:\javaProject\javatrans\src\main\java\wasdev\sample\servlet>javac CharsetTest3.
java
CharsetTest3.java:17: 错误: 编码GBK的不可映射字符
                        String destination = new String("涓枃銈ㄣ偔銈点偆銉堧
劋鞚措矂 欷戧淡鞏挫偓鞝?17");

^
CharsetTest3.java:23: 错误: 编码GBK的不可映射字符
                        destination = new String("涓枃銈ㄣ偔銈点偆銉堧劋鞚措矂
 欷戧淡鞏挫偓鞝?18");
                                                                         ^
2 个错误

没有指定编码,与系统默认不符!

D:\javaProject\javatrans\src\main\java\wasdev\sample\servlet>javac CharsetTest3.
java -encoding utf-8
使用”-encoding utf-8“指定编码,执行成功。
注意:在CMD在测试的时候最好不要使用包名,不然很麻烦,我真想说恨死Java了(包的查找方式太恶心,或许是因为性能考虑所以写的这么死板)。


我的文件完整路径是:D:\javaProject\javatrans\src\main\java\wasdev\sample\servlet\CharsetTest3.java

可以通过” -Dfile.encoding=utf-8“指定编码方式


但是CMD应该是使用的GBK编码,不支持韩文,我们把韩文复制粘贴到CMD窗口中发现这一点:


只见光标后移了,却看不见内容。

sun.cpu.endian=little CPU的字节序为小结尾,这涉及到”主机字节序和网络字节序“的问题,通常主机字节序为小结尾(Little endian:将低序字节存储在起始地址),网络字节序为大结尾(Big endian:将高序字节存储在起始地址)。但不同的处理器(CPU)、操作系统也有可能不同。

优化后的方法:

	/**
	 * 判断字符串的编码
	 *
	 * @param str
	 * @return
	 */
	public static String getEncoding(String str) {
		String encode[] = new String[]{
				"UTF-8",
				"ISO-8859-1",
				"GB2312",
				"GBK",
				"GB18030",
				"Big5",
				"Unicode",
				"ASCII"
		};
		for (int i = 0; i < encode.length; i++){
			try {
				if (str.equals(new String(str.getBytes(encode[i]), encode[i]))) {
					return encode[i];
				}
			} catch (Exception ex) {
			}
		}
		
		return "";
	}
说明:把”UTF-8“放在第一位是因为现在使用的比较普遍,见下图:


显示Google记录的2001年至2012年网络上主要编码的使用情况。参考:https://en.wikipedia.org/wiki/UTF-8测试代码:

	public static void main(String[] args) {
		String str = "中文エキサイト";
		String encode = getEncoding(str);
		System.out.println(encode);
		
		str = "中文エキサイト네이버 중국어사전";
		encode = getEncoding(str);
		System.out.println(encode);
	}
执行输出为:UTF-8
UTF-8
注意:如果将数组”String encode[]“中”UTF-8“和”GB2312“的位置换一下,结果就会发生改变为:
GB2312
UTF-8
这是为什么?通过监视以下代码中的”destination.getBytes“,我们可以发现是存在重码区域的!

			destination = new String("中文エキサイト네이버 중국어사전17");
			if(destination.equals(new String(destination.getBytes("GB2312"), "GB2312")))
			{
				System.out.println(destination);
			}
			
			destination = new String("中文エキサイト네이버 중국어사전18");
			if(destination.equals(new String(destination.getBytes("utf-8"), "utf-8")))
			{
				System.out.println(destination);
			}

如下图:


所以”getEncoding“方法的正确性有是局限性的,一方面是数组中包含的编码的各类是否够全,一方面是需要判断的字符串特征是否明显。


======================文档信息===========================

版权声明:非商用自由转载-保持署名-注明出处

署名(BY) :testcs_dn(微wx笑)

文章出处:[无知人生,记录点滴](http://blog.csdn.net/testcs_dn)

1
3
查看评论
发表评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场

Java String 类型编码转换

String newStr = new String(oldStr.getBytes(), "UTF-8");  java中的String类是按照unicode进行编码的,当使用String(byte...
  • mengyan4632
  • mengyan4632
  • 2011-05-24 15:38
  • 105954

Java中String类型与默认字符编码

为什么写这个至于为什么要写这个,主要是一句mmp一定要讲,绕了一上午,晕死 Java程序中的中文乱码问题一直是一个困扰程序员的难题,自己也不例外,早在做项目时就遇到过很多编码方式的坑,当时想填来着,...
  • Sugar_Rainbow
  • Sugar_Rainbow
  • 2017-08-08 23:36
  • 1495

java字符串的各种编码转换

import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** ...
  • u011225629
  • u011225629
  • 2015-09-20 07:49
  • 3473

(透彻)java String.getBytes()编码问题

转载自: String.getBytes()的问题 String的getBytes()方法是得到一个字串的字节数组,这是众所周知的。但特别要注意的是,本方法将返回该操作系统默认...
  • yang3wei
  • yang3wei
  • 2012-03-22 03:04
  • 19150

Java中判断字符编码以及转码

java中判断字符编码以及转码                     ...
  • WitsMakeMen
  • WitsMakeMen
  • 2012-11-20 19:56
  • 13410

Java判断文本文件编码格式以及读取

如果不是约定好的,要想解析txt文件就需要知道文件编码类型,由于文件编码类型众多,例如UTF-8,GBK,UTF-16,GB2312等等。 其实有简单的办法,只需要这样就可以了 Stri...
  • 21aspnet
  • 21aspnet
  • 2016-01-30 23:28
  • 7989

java 怎么判断文本内容的编码格式

java 怎么判断文本内容的编码格式
  • IRhythm
  • IRhythm
  • 2016-05-07 11:16
  • 3895

Java 获取字符串的编码类型

有时候我们会遇到要获取某段字符串的编码类型 public static String getEncoding(String str) { String encode =...
  • u010982856
  • u010982856
  • 2016-09-23 09:53
  • 4301

java中获取汉字字符串编码格式的一种可行方式

愚园 jiangnanyuzi的专栏 http://blog.csdn.net/jiangnanyuzi/archive/2008/01/31/2075459.aspx 近日被汉字乱码搞的晕头转向,...
  • HyEVERYONE
  • HyEVERYONE
  • 2011-05-21 19:30
  • 8068

JAVA如何判断字符串编码

public static String getEncoding(String str) {              String encode = "GB2312";     ...
  • alane1986
  • alane1986
  • 2015-06-18 09:51
  • 6004
    联系我

    IT十年-0群:(170273637)已满

    IT十年-1群:(170272290)

    IT十年-2群:(165600467)

    加群暗号:微wx笑

    个人资料
    • 访问:9680106次
    • 积分:68218
    • 等级:
    • 排名:第33名
    • 原创:872篇
    • 转载:242篇
    • 译文:53篇
    • 评论:1959条
    博客专栏
    文章分类
    最新评论
    友情链接