java中文字符完整性判断

最新推荐文章于 2021-02-27 23:34:30 发布

wuzhong

最新推荐文章于 2021-02-27 23:34:30 发布

阅读量194

点赞数

分类专栏： java 文章标签： Java junit

java 专栏收录该内容

32 篇文章 0 订阅

订阅专栏

前提：
英文字符在utf8编码下是1个字符
中文的utf8编码占3个字符

思路：
将字符数组转化为字符串，这是有可能最后一位是乱码的。对于计算机而言好像没什么好的办法判断最后字符是否为中文或者乱码。我们再把该未被确认的字符串再解码为 UTF8 的字符数组，这时候你会奇怪的发现如果最后一位是乱码的话，它会被转换为3个字符。比较字符数组的长度，后面就有很多文章可做了。


import java.io.UnsupportedEncodingException;

import org.junit.Test;

public class StringTest {

	@Test
	public void test() throws UnsupportedEncodingException{
		String str = "hello，我是谁";
		byte[] bs = str.getBytes("UTF-8");

		printInfo(bs);
		//104 101 108 108 111 -17 -68 -116 -26 -120 -111 -26 -104 -81 -24 -80 -127 
		System.out.println(new String(bs, "UTF-8"));
		byte[] bs2 = new byte[bs.length-1];
		for(int i=0;i<bs.length-1;i++){
			bs2[i] = bs[i];
		}

		//104 101 108 108 111 -17 -68 -116 -26 -120 -111 -26 -104 -81 -24 -80 
		printInfo(bs2);

		//hello，我是�
		String str2 = new String(bs2, "UTF-8");
		System.out.println(str2);

		//104 101 108 108 111 -17 -68 -116 -26 -120 -111 -26 -104 -81 -17 -65 -67 
		byte[] bs3 = str2.getBytes("UTF-8");
		printInfo(bs3);

		System.out.println("");
		if(bs2.length!=bs3.length){
			//hello，我是
			System.out.println(str2.substring(0, str2.length()-1));	
			int leftLen = 3 - (bs3.length - bs2.length);
		    byte lefted[] = new byte[leftLen];   
		    for(int i =0; i < leftLen ; i++){
		    	lefted[i] = bs2[bs2.length-1-i];
		    }    
		    printInfo(lefted);
		}		
	}

	private void printInfo(byte[] bs){
		System.out.println(bs.length+":");
		for(int i=0;i<bs.length;i++){
			System.out.print(bs[i]+" ");
		}
	}

}

wuzhong

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java中文字符完整性判断

前提：英文字符在utf8编码下是1个字符中文的utf8编码占3个字符思路：将字符数组转化为字符串，这是有可能最后一位是乱码的。对于计算机而言好像没什么好的办法判断最后字符是否为中文或者乱码。我们再把该未被确认的字符串再解码为 UTF8 的字符数组，这时候你会奇怪的发现如果最后一位是乱码的话，它会被转换为3个字符。比较字符数组的长度，后面就有很多文章可做了。...
复制链接

扫一扫