在对字符串进行编码格式转化时,要小心编码格式。
今天加班测试下周客户演示环境时发现一个转码格式问题导致乱码,准确的讲,是上海的同事在新建部署环境时没有添加中文的语言包,特此写下以下内容,留作记忆。
在操作字符串时,可以通过getByte()方法,将string转换为byte[]类型,粗心一看,没有问题,仔细一想,就会发现这样存在一定的问题的。
问题出在哪?问题在于进行转换时没有限定转换的字符集。
在对string类型源码的查看中,可以发现,getByte()方法是使用了一个字符集进行转换的,这个字符集是什么呢?是系统的默认字符集。也就是说在使用getByte()方法时,JDK会调用系统的默认字符集格式,采用它进行转码,同样的道理在new String(byte[] by)中,也会调用默认的字符集格式。
在这样看来代码是否也没有问题啊?这是正确的。但是有一点需要注意,现在的项目都有一个移植的问题,就比如说从开发的服务器上移植到测试服务器上,或者客户的真实部署环境上,有多少人能够保证几个环境的配置相同呢?很有可能几个服务器的操作系统不一样,语言包不一样,你不能保证这些都一样,相信有经验的人士都了解这个情况。
由于以上的原因,就只能在进行转换时设定字符集格式,比如getByte("UTF-8"),这样就能够限定转换的格式,当然在转换回来的时候也需要设定相应的字符集new String(byte[] ,"UTF-8").
当然,使用以上方法也不能确保所有的情况下都是正常的,目前我就遇到这种情况。
原因就是在我的新部署环境上没有UTF-8格式,说的具体一点,就是这个系统完全不支持中文,即使使用IE打开中文的网站也会显示为乱码。这种情况下唯一的方式就是在部署环境上增加语言包。