Java中中文乱码实在是个麻烦的问题,常常发生在Java读取文件、读取其他流、Java与数据库操作、Jsp显示等,往往两端的编码格式不同就会产生乱码。
最近项目中要对Jboss Portal 的CMS Portlet内容管理功能进行汉化,就碰到的中文乱码的问题。
如下:
Jboss Server 部署于Linux服务器,使用Oracle数据库utf8编码,保存CMS文件的对应字段是Blob类型。客户机是Windows 7/XP,登录Portal系统使用CMS功能,
(1) 在文件编辑器中输入中文,保存后再打开即成乱码
(2)上传文件/上传压缩文件 中如果有中文,打开也是乱码
通过客户机PL/SQL登录到Linux服务器查看数据库,文件中的中文并未乱码。
分析源代码发现,
(1)编辑文件时输入的中文,是以GBK的编码方式正确存入了数据库,只是在从库中取出传给jsp时,没有设定编码,默认以UTF-8的编码传输,故由GBK->UTF-8的编码转换时会出现乱码。解决方式如下:
在 org.jboss.portal.core.cms.ui.admin.CMSAdminPortlet 类的 internalDoView 方法的else if (CMSAdminConstants.OP_EDIT.equals(op)){ 判断中 rReq.setAttribute("content", file.getContent().getContentAsString()); 之前加入这一句:file.getContent().setEncoding("GBK"); 这样即表示传到jsp显示时以GBK的编码,从库到Java到Jsp都是GBK编码,不需转码,就不会有乱码了
(2)上传文件/上传压缩包 这个就麻烦了,因为不知道要上传的文件内容是GBK的编码还是UTF8的编码,目前我的解决方案是上传的文件以GBK的编码保存:
在else if (CMSAdminConstants.OP_SAVETEXT.equals(op)){条件语句和else if (CMSAdminConstants.OP_SAVENEWTEXT.equals(op)){ 的条件语句中,都将content.setBytes(sContent.getBytes()); 改成 content.setBytes(sContent.getBytes("GBK"));
显示时,同(1)以GBK 的方式显示,这样如果上传文件的内字符的编码是GBK族的就不会出现乱码,但若内容字符是UTF8的编码,仍会出现乱码。
上述解决方式中,将所有GBK的地方都改成UTF-8也是可以的,但这样就要求客户机上传的文件是以UTF-8为编码的才行,以GBK上传的就又出现乱码。
目前还有“导出文件夹”时,文件名的中文乱码未解决,查看源代码发现,是导出文件夹时用 java.util.zip.ZipOutputStream 将文件夹压缩时,用UTF-8的默认编码造成的(很奇怪为什么UTF-8也不行),网上的解决方案有两种,改JDK的源码, 或者使用org.apache.tools.zip.ZipEntry代替 java.util.zip.ZipEntry。