含中文字符的字符串截取(面试题)

面试题目编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。但是要保证汉字不被截半个,如“我ABC4,应该截为“我AB”,输入“我ABCDEF”,6,应该输出为“我ABC”而不是“我ABC+汉的半个

 

1、原理

我们知道,根据编码的不同,汉字在字符串中所占字节也不一样,如果是UTF-8编码,汉字占3个字节,如果是GBK编码(本文利用的是GBK编码的实现),汉字占2个字节。但是,英文单词在字符串中,始终占用1个字节。所以,把字符串先转化为字符数组和字节数组,然后同时遍历两个数组,比较在数组同位置的值是否相等,如果相等,那么说明该字符是英文字符,如果不相同则说明该字符是中文字符,同时记录下来。大致原理就是这样的,大家看代码实现

 

2、代码实现

 

/**
 * @author Quenice
 */
public class StringSplit {
	public static void main(String[] args) throws Exception {
		System.out.println(split("a好a嗯哦",3));
	}
	
	public static String split(String str, int byteNum) throws Exception {
		String ret = null;
		/*
		 * 转换为字符数组,数组中的元素可能是英文字符,也可能是中文字符
		 */
		char[] charArr = str.toCharArray();
		/*
		 * 以GBK编码转换为字节数组,数组元素可能是英文也可能是半个中文,
		 * 如果字符串全部是英文字符的话,那么转换之后的效果其实和转换为字符数组是一个意思
		 */
		byte[] byteArr = str.getBytes("GBK");
		//在拆分个数范围(即byteNum)内,计算字节数组中有多少半个汉字
		int notCharLen = 0;
		for(int i = 0;i < byteNum;i ++) {
			if(i > charArr.length - 1) {
				notCharLen ++;
			} else {
				/*
				 * 比较字符数组和字节数组对应的元素是否相等,不等说明是半个汉字,notCharLen++,相当说明是英文字符,不操作
				 * charArr[i - notCharLen/2]就是对应于第i个字节
				 */
				if(charArr[i - notCharLen/2] != byteArr[i]) {
					notCharLen ++;
				}
			}
		}
		
		if(notCharLen%2 == 0) {//如果是2的膜,说明正好不用拆封汉字
			ret = str.substring(0,byteNum - notCharLen/2);
		} else {//需要拆封汉字
			ret = str.substring(0,byteNum - notCharLen/2 - 1);
		}
		return ret;
	}
}

  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值