https://blog.csdn.net/Jintiago/article/details/88576106?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param
二进制及JAVA中字符字节的一些复习
背景
在调用金蝶K3/Cloud WebApi向金蝶ERP软件中保存或修改一些数据时,总是会出现乱码,于是便开始找原因。
第一次处理字符乱码问题
因为部分代码是从金蝶论坛上面直接copy的。论坛的老师也对字符进行了处理,是将字符中的汉字过滤出来
转为16进制前面再与\u拼接 获取其Unicode编码。但这种方法对于某些字符不起作用。比如Ascll十进制代码183 的中点“·”
附上Ascll码对照表
public static String chinaToUnicode(String str) {
String result = "";
for (int i = 0; i < str.length(); i++) {
int chr1 = (char) str.charAt(i);
if (chr1 >= 19968 && chr1 <= 171941) {// 汉字范围 \u4e00-\u9fa5 (中文)
result += "\\u" + Integer.toHexString(chr1);
} else {
result += str.charAt(i);
}
}
return result;
}
第二次处理
将标点和中文都进行了过滤(||或关系也试过),结果还是不行
public static String chinaToUnicode2(String str) {
char[] chars = str.toCharArray();
String result = "";
for (int i = 0; i < chars.length; i++) {
int chr1 = chars[i];
if (isChineseByBlock(chars[i])) {
result = result + "\\u" + Integer.toHexString(chr1);
} else if (isChinesePunctuation(chars[i])) {
result += ".";
} else {
result = result + chars[i];
}
}
return result;
}
// 判断标点
public static boolean isChinesePunctuation(char c) {
Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
if (ub == Character.UnicodeBlock.GENERAL_PUNCTUATION || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
|| ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
|| ub == Character.UnicodeBlock.CJK_COMPATIBILITY_FORMS
|| ub == Character.UnicodeBlock.VERTICAL_FORMS) {
return true;
} else {
return false;
}
}
// 使用UnicodeBlock方法判断中文
public static boolean isChineseByBlock(char c) {
Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
|| ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
|| ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
|| ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT) {
return true;
} else {
return false;
}
}
第三次处理
特意去查Ascll里面这个中点 转换为GB2312为 41380 ,再转16进制是A1A4 ,
GB2312与Unicode对照表链接
经过对照得知这个·的Unicode码为00B7
而我用上述函数单独将这个特殊字符 转为Unicode时为B7,前面的00不见。
原来上述函数只考虑在字符中占两个字节的汉字,而没有只占一个字节的符号。所以没有进行十六进制00的补位。知道了原因我们就好处理啦
public static String chinaToUnicode(String s) {
StringBuffer sb = new StringBuffer();
for (int i = 0; i < s.length(); i++) {
char c = s.charAt(i);
// 除了ascii表中可显示字符外,全部转unicode
if ((c >= 32 && c <= 126)) {
sb.append(c);
} else {
sb.append(char2Unicode(c));
}
}
System.out.println("转编码字符======>" + sb);
return sb.toString();
}
private static String char2Unicode(char c) {
StringBuffer sb = new StringBuffer();
sb.append("\\u");
// 涉及字符集的问题 一个字符可以放两个字节 . 中文占2字节,有些标点占1字节 ,而1个字节是8位二进制
int j = (c >>> 8); // 取出第二个字节 就可以判断出当前字符是占一个字节还是两个
String tmp = Integer.toHexString(j);
// 转16进制 如果只占一个字节
// 那么右移8位后就只剩1位 为0,对应16进制也只会是1位,temp长度也是1;
// 相反则长度不为1
if (tmp.length() == 1)
sb.append("0");// 如果只占一个字节,那么补一个0
sb.append(tmp);// 一个字节的话一般也是0相当于再补位一个0;相反就补第二个字节
j = (c & 0xFF); // 取出低8位 (将高24位全部变成0 低8位不变)
tmp = Integer.toHexString(j);
if (tmp.length() == 1) //与高八位做法一样
sb.append("0");
sb.append(tmp);
return sb.toString();
}