通过JAVA调用金蝶K3/Cloud WebAPI 发现的字符转unicode乱码问题

https://blog.csdn.net/Jintiago/article/details/88576106?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param

 

二进制及JAVA中字符字节的一些复习

 

背景

在调用金蝶K3/Cloud WebApi向金蝶ERP软件中保存或修改一些数据时,总是会出现乱码,于是便开始找原因。

第一次处理字符乱码问题

因为部分代码是从金蝶论坛上面直接copy的。论坛的老师也对字符进行了处理,是将字符中的汉字过滤出来
转为16进制前面再与\u拼接 获取其Unicode编码。但这种方法对于某些字符不起作用。比如Ascll十进制代码183 的中点“·”
附上Ascll码对照表

public static String chinaToUnicode(String str) {
       String result = "";
       for (int i = 0; i < str.length(); i++) {
               int chr1 = (char) str.charAt(i);
               if (chr1 >= 19968 && chr1 <= 171941) {// 汉字范围 \u4e00-\u9fa5 (中文)
                       result += "\\u" + Integer.toHexString(chr1);
               } else {
                       result += str.charAt(i);
               }
       }
       return result;
}

第二次处理

将标点和中文都进行了过滤(||或关系也试过),结果还是不行

public static String chinaToUnicode2(String str) {
	char[] chars = str.toCharArray();
	String result = "";
	for (int i = 0; i < chars.length; i++) {
		int chr1 = chars[i];
		if (isChineseByBlock(chars[i])) {
			result = result + "\\u" + Integer.toHexString(chr1);
		} else if (isChinesePunctuation(chars[i])) {
			result += ".";
		} else {
			result = result + chars[i];
		}
	}
	return result;
}

// 判断标点
public static boolean isChinesePunctuation(char c) {
	Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
	if (ub == Character.UnicodeBlock.GENERAL_PUNCTUATION || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
			|| ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
			|| ub == Character.UnicodeBlock.CJK_COMPATIBILITY_FORMS
			|| ub == Character.UnicodeBlock.VERTICAL_FORMS) {
		return true;
	} else {
		return false;
	}
}

// 使用UnicodeBlock方法判断中文
public static boolean isChineseByBlock(char c) {
	Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
	if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
			|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
			|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
			|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
			|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
			|| ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
			|| ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT) {
		return true;
	} else {
		return false;
	}
}

第三次处理

特意去查Ascll里面这个中点 转换为GB2312为 41380 ,再转16进制是A1A4 ,
GB2312与Unicode对照表链接
经过对照得知这个·的Unicode码为00B7
而我用上述函数单独将这个特殊字符 转为Unicode时为B7,前面的00不见。
原来上述函数只考虑在字符中占两个字节的汉字,而没有只占一个字节的符号。所以没有进行十六进制00的补位。知道了原因我们就好处理啦

public static String chinaToUnicode(String s) {
	StringBuffer sb = new StringBuffer();
	for (int i = 0; i < s.length(); i++) {
		char c = s.charAt(i);
		// 除了ascii表中可显示字符外,全部转unicode
		if ((c >= 32 && c <= 126)) {
			sb.append(c);
		} else {
			sb.append(char2Unicode(c));
		}
	}
	System.out.println("转编码字符======>" + sb);
	return sb.toString();
}

private static String char2Unicode(char c) {
	StringBuffer sb = new StringBuffer();
	sb.append("\\u");
	// 涉及字符集的问题 一个字符可以放两个字节 . 中文占2字节,有些标点占1字节 ,而1个字节是8位二进制
	int j = (c >>> 8); // 取出第二个字节 就可以判断出当前字符是占一个字节还是两个
	String tmp = Integer.toHexString(j);
	// 转16进制 如果只占一个字节 
	// 那么右移8位后就只剩1位 为0,对应16进制也只会是1位,temp长度也是1;
	// 相反则长度不为1
	if (tmp.length() == 1)
		sb.append("0");// 如果只占一个字节,那么补一个0
	sb.append(tmp);// 一个字节的话一般也是0相当于再补位一个0;相反就补第二个字节
	j = (c & 0xFF); // 取出低8位 (将高24位全部变成0 低8位不变)
	tmp = Integer.toHexString(j);
	if (tmp.length() == 1)  //与高八位做法一样
		sb.append("0");
	sb.append(tmp);
	return sb.toString();
}

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值