面试题目:编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。但是要保证汉字不被截半个,如“我ABC”4,应该截为“我AB”,输入“我ABC汉DEF”,6,应该输出为“我ABC”而不是“我ABC+汉的半个
1、原理
我们知道,根据编码的不同,汉字在字符串中所占字节也不一样,如果是UTF-8编码,汉字占3个字节,如果是GBK编码(本文利用的是GBK编码的实现),汉字占2个字节。但是,英文单词在字符串中,始终占用1个字节。所以,把字符串先转化为字符数组和字节数组,然后同时遍历两个数组,比较在数组同位置的值是否相等,如果相等,那么说明该字符是英文字符,如果不相同则说明该字符是中文字符,同时记录下来。大致原理就是这样的,大家看代码实现
2、代码实现
/**
* @author Quenice
*/
public class StringSplit {
public static void main(String[] args) throws Exception {
System.out.println(split("a好a嗯哦",3));
}
public static String split(String str, int byteNum) throws Exception {
String ret = null;
/*
* 转换为字符数组,数组中的元素可能是英文字符,也可能是中文字符
*/
char[] charArr = str.toCharArray();
/*
* 以GBK编码转换为字节数组,数组元素可能是英文也可能是半个中文,
* 如果字符串全部是英文字符的话,那么转换之后的效果其实和转换为字符数组是一个意思
*/
byte[] byteArr = str.getBytes("GBK");
//在拆分个数范围(即byteNum)内,计算字节数组中有多少半个汉字
int notCharLen = 0;
for(int i = 0;i < byteNum;i ++) {
if(i > charArr.length - 1) {
notCharLen ++;
} else {
/*
* 比较字符数组和字节数组对应的元素是否相等,不等说明是半个汉字,notCharLen++,相当说明是英文字符,不操作
* charArr[i - notCharLen/2]就是对应于第i个字节
*/
if(charArr[i - notCharLen/2] != byteArr[i]) {
notCharLen ++;
}
}
}
if(notCharLen%2 == 0) {//如果是2的膜,说明正好不用拆封汉字
ret = str.substring(0,byteNum - notCharLen/2);
} else {//需要拆封汉字
ret = str.substring(0,byteNum - notCharLen/2 - 1);
}
return ret;
}
}