JAVA 变长UTF-8 编码 转为 UNICODE


/**
* UTF编码转为 UNICODE
* @param b
* @return
*/
private byte[] UTF8_TO_UNICODE(byte[] b){
byte[] BUF=new byte[b.length];
int j=0;

for (int i = 0; i < b.length; i++) {
byte tempBuf=b[i];
//int code=(b[i] & 0xFF) | ((b[i + 1] & 0xFF) );( 没有用 ,之前是用来做if else 判断的,现在直接用编码 第一个字节做判断)
if(tempBuf==34) // 引号直接跳过
continue;
int size=i+1;
if(size<b.length && tempBuf==0 && b[size]==32){ //由于84, 21, 92, 92, 17, 92, 92, 113, 此类由于解析协议不晓得,将可能出现乱码,所以以空格为间隔符,让缓存BYTE转为偶数位,以便后面的身份证不会乱码
//Log.e("空格","i="+i+" tempBuf="+tempBuf+" j="+j);
if(j%2!=0){
j++;
}
}
if(tempBuf<=127 && tempBuf>=0){ //第一类 单字节
BUF[j++]=tempBuf;
continue;
}else if(tempBuf<=-33 ){ //第二类(2个字节)
byte[] buf=new byte[2];
buf[0]=(byte) ((b[i] ^ MASK2BYTES));
buf[0]=(byte) (buf[0]<<6);
buf[1]=(byte) (b[i+1] ^ MASKBYTE);
byte result=(byte) (buf[0] ^ buf[1]);
//zhuan(new byte[result]);
Log.e("---",String.format("%02x", result));
BUF[j++]=result;
i++;
}
else if(tempBuf <= -17){ //第三类情况(3个字节),此类算法最终需要得到的是两个字节的编码,每个字节为一个十六进制的unicode编码,所以要涉及到把一个short拆分成连个byte
short[] buf=new short[3];
buf[0] = (byte)(b[i] ^ MASK3BYTES);
buf[0]=(short) (buf[0]<<12);
buf[1] = (byte) (b[i+1] ^ MASKBYTE );
buf[1]=(short) (buf[1]<<6);
buf[2] = (byte) (b[i+2] ^ MASKBYTE);
//... 没解析完。。。。没有TF卡,不知道怎么解析恶劣
short buf1 = (short) (buf[0]^buf[1]);
BUF[j++]=(byte)(buf1>>8);
short buf2= (short)(buf[0]^buf[2]);
BUF[j++]=(byte)buf2;
i=i+2; //由于 循环 最后还会执行一个 i++,所以这里i只能+2
}
//理论上 UTF-8组成的编码可以最长到6个字节,实际上 中文一般会只用到3个字节的UTF-8,4-6个字节的解码算法待续

}

//需要对已经转换的BYTE[]进行重组,BUF[]的后面一些是空的,会解析成乱码,而转换出来的编码长度,应该是j
byte[] resultBuf=new byte[j];
for (int i = 0; i < resultBuf.length; i++) {
resultBuf[i]=BUF[i];
}
return resultBuf;
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值