题目要求:
编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。 但是要保证汉字不被截半个,如“我ABC”4,应该截为“我AB”,输入“我ABC汉DEF”,6,应该输出为“我ABC”而不是“我ABC+汉的半个”。
题目难点:如何判断字节是汉字还是字母?
解决办法:将String转换成byte数组,同时设置字符集为“GBK”,汉字截半的话对应字节的ASC码将会小于0。
import java.io.UnsupportedEncodingException;
public class testSplit {
public static String splitFirst(String str , int n) {
int byteNum = str.length();
byte bt[] = new byte[0];
try {
bt = str.getBytes("GBK");
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
if(bt[n-1]>0){ //由于数组第一个下标为0,此时判断的是第n个字节。
//若第n个字节不是汉字,说明直接截断第n个位置也不会出现把汉字截断的情况
String subStr = new String(bt, 0, n);
return subStr;
}
if(bt[n]>0){ //经过上面的判断,此时的判断相当于if(bt[n]>0&&bt[n-1]<0)
//若第n个字节是汉字,且第n+1个字节不是汉字,此时直接截断第n个位置也不会出现把汉字截断的情况
String subStr = new String(bt, 0, n);
return subStr;
}
//此时剩下的情况是:第n个字节是汉字,且第n+1个字节也是汉字,此时截断第n-1个位置才不会出现把汉字截断的情况
String subStr = new String(bt, 0, n-1);
return subStr;
}
public static void main(String[] args) {
System.out.println(splitFirst("我ABC", 4));
System.out.println(splitFirst("我AB汉efg", 6));
System.out.println(splitFirst("我ABC汉efg", 6));
System.out.println(splitFirst("我ABCD汉efg", 6));
}
}
输出结果:没有修改对应编码。导致控制台输出乱码,由于能更直观得体现题目要求,索性直接把结果贴上来了。
��AB
��AB��
��ABC
��ABCD