通过JAVA调用金蝶K3/Cloud WebAPI 发现的字符转unicode乱码问题

最新推荐文章于 2024-07-27 01:37:38 发布

日积月累@海纳百川

最新推荐文章于 2024-07-27 01:37:38 发布

阅读量866

点赞数 1

分类专栏： Java

原文链接：https://blog.csdn.net/Jintiago/article/details/88576106?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_par

版权

Java 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

https://blog.csdn.net/Jintiago/article/details/88576106?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param

二进制及JAVA中字符字节的一些复习

背景

在调用金蝶K3/Cloud WebApi向金蝶ERP软件中保存或修改一些数据时，总是会出现乱码，于是便开始找原因。

第一次处理字符乱码问题

因为部分代码是从金蝶论坛上面直接copy的。论坛的老师也对字符进行了处理，是将字符中的汉字过滤出来
转为16进制前面再与\u拼接获取其Unicode编码。但这种方法对于某些字符不起作用。比如Ascll十进制代码183 的中点“·”
附上Ascll码对照表

public static String chinaToUnicode(String str) {
       String result = "";
       for (int i = 0; i < str.length(); i++) {
               int chr1 = (char) str.charAt(i);
               if (chr1 >= 19968 && chr1 <= 171941) {// 汉字范围 \u4e00-\u9fa5 (中文)
                       result += "\\u" + Integer.toHexString(chr1);
               } else {
                       result += str.charAt(i);
               }
       }
       return result;
}

第二次处理

将标点和中文都进行了过滤（||或关系也试过），结果还是不行

public static String chinaToUnicode2(String str) {
	char[] chars = str.toCharArray();
	String result = "";
	for (int i = 0; i < chars.length; i++) {
		int chr1 = chars[i];
		if (isChineseByBlock(chars[i])) {
			result = result + "\\u" + Integer.toHexString(chr1);
		} else if (isChinesePunctuation(chars[i])) {
			result += ".";
		} else {
			result = result + chars[i];
		}
	}
	return result;
}

// 判断标点
public static boolean isChinesePunctuation(char c) {
	Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
	if (ub == Character.UnicodeBlock.GENERAL_PUNCTUATION || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
			|| ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
			|| ub == Character.UnicodeBlock.CJK_COMPATIBILITY_FORMS
			|| ub == Character.UnicodeBlock.VERTICAL_FORMS) {
		return true;
	} else {
		return false;
	}
}

// 使用UnicodeBlock方法判断中文
public static boolean isChineseByBlock(char c) {
	Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
	if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
			|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
			|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
			|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
			|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
			|| ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
			|| ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT) {
		return true;
	} else {
		return false;
	}
}

第三次处理

特意去查Ascll里面这个中点转换为GB2312为 41380 ，再转16进制是A1A4 ,
GB2312与Unicode对照表链接
经过对照得知这个·的Unicode码为00B7
而我用上述函数单独将这个特殊字符转为Unicode时为B7，前面的00不见。
原来上述函数只考虑在字符中占两个字节的汉字,而没有只占一个字节的符号。所以没有进行十六进制00的补位。知道了原因我们就好处理啦

public static String chinaToUnicode(String s) {
	StringBuffer sb = new StringBuffer();
	for (int i = 0; i < s.length(); i++) {
		char c = s.charAt(i);
		// 除了ascii表中可显示字符外，全部转unicode
		if ((c >= 32 && c <= 126)) {
			sb.append(c);
		} else {
			sb.append(char2Unicode(c));
		}
	}
	System.out.println("转编码字符======>" + sb);
	return sb.toString();
}

private static String char2Unicode(char c) {
	StringBuffer sb = new StringBuffer();
	sb.append("\\u");
	// 涉及字符集的问题 一个字符可以放两个字节 . 中文占2字节，有些标点占1字节 ，而1个字节是8位二进制
	int j = (c >>> 8); // 取出第二个字节 就可以判断出当前字符是占一个字节还是两个
	String tmp = Integer.toHexString(j);
	// 转16进制 如果只占一个字节 
	// 那么右移8位后就只剩1位 为0，对应16进制也只会是1位，temp长度也是1；
	// 相反则长度不为1
	if (tmp.length() == 1)
		sb.append("0");// 如果只占一个字节，那么补一个0
	sb.append(tmp);// 一个字节的话一般也是0相当于再补位一个0；相反就补第二个字节
	j = (c & 0xFF); // 取出低8位 (将高24位全部变成0 低8位不变)
	tmp = Integer.toHexString(j);
	if (tmp.length() == 1)  //与高八位做法一样
		sb.append("0");
	sb.append(tmp);
	return sb.toString();
}