今天在外面看到一个java面试题关于字符串截取的,在这里跟大家分享一下
题目如下:
在java中,字符串“abcd”与字符串“ab你好”的长度是一样,都是四个字符。
但对应的字节数不同,一个汉字占两个字节。
定义一个方法,按照指定的字节数来取子串。
如:对于“ab你好”,如果取三个字节,那么子串就是ab与“你”字的半个,那么半个就要舍弃。如果取四个字节就是“ab你”,取五个字节还是“ab你”。
1.考虑gbk编码
方法一:
//从前往后读取
private String cutStringByGBK2(String str,int len){//把str从len位置截取
//这种方法存在bug
//BUG:琲(bei):GBK编码:-84 105
String resStr="";
try {
byte bs[]=str.getBytes("gbk");
int count=0; //计数
for(int i=0;i<len;i++){
if(bs[i]<0){
count++;
if(count==2){
String s=new String(bs,i-1,2,"gbk");
resStr+=s;
count=0;
}
}else{
resStr+=(char)bs[i];
}
}
} catch (UnsupportedEncodingException e) {
throw new RuntimeException("不支持gbk编码");
}
return resStr;
}
测试:
@Test
public void testCutStringByGBK2() throws IOException{
String str="ad湖nan班分解机琲";
byte bs[]=str.getBytes("gbk");
for(int i=0;i<bs.length+1;i++){
String s=cutStringByGBK2(str, i);
System.out.println(i+":"+s);
}
}
结果:
0:
1:a
2:ad
3:ad
4:ad湖
5:ad湖n
6:ad湖na
7:ad湖nan
8:ad湖nan
9:ad湖nan班
10:ad湖nan班
11:ad湖nan班分
12:ad湖nan班分
13:ad湖nan班分解
14:ad湖nan班分解
15:ad湖nan班分解机
16:ad湖nan班分解机
17:ad湖nan班分解机i
方法二:
//从后往前读取
private String cutStringByGBK1(String str,int len){//把str从len位置截取
try {
byte bs[]=str.getBytes("gbk");
int count=0;//计数
for(int i=len-1;i>=0;i--){
if(bs[i]<0){
count++;
}else{
break;
}
}
if(count%2==0){
return new String(bs,0,len,"gbk");
}else{
return new String(bs,0,len-1,"gbk");
}
} catch (UnsupportedEncodingException e) {
throw new RuntimeException("不支持gbk编码");
}
}
测试:
@Test
public void testCutStringByGBK1() throws IOException{
String str="ad湖nan班分解机琲";
byte bs[]=str.getBytes("gbk");
for(int i=0;i<bs.length+1;i++){
String s=cutStringByGBK1(str, i);
System.out.println(i+":"+s);
}
}
结果:
0:
1:a
2:ad
3:ad
4:ad湖
5:ad湖n
6:ad湖na
7:ad湖nan
8:ad湖nan
9:ad湖nan班
10:ad湖nan班
11:ad湖nan班分
12:ad湖nan班分
13:ad湖nan班分解
14:ad湖nan班分解
15:ad湖nan班分解机
16:ad湖nan班分解机
17:ad湖nan班分解机琲
2.考虑utf-8编码
方法一:
//从前往后读取
private String cutStringByUTF8(String str,int len){
//因为中文在utf-8编码中占3~4个字节。有些不常用的中文在utf-8编码中占4个字节
//这里按照中文占3个字节来算 //utf-8编码 :琲:-25 -112 -78
String resStr="";
try {
byte bs[]=str.getBytes("utf-8");
int count=0; //计数
for(int i=0;i<len;i++){
if(bs[i]<0){
count++;
if(count==3){
String s=new String(bs,i-2,3,"utf-8");
resStr+=s;
count=0;
}
}else{
resStr+=(char)bs[i];
}
}
} catch (UnsupportedEncodingException e) {
throw new RuntimeException("不支持utf-8编码");
}
return resStr;
}
测试:
@Test
public void testCutStringByUTF8_1() throws IOException{
String str="ad湖nan班分解机琲";
byte bs[]=str.getBytes("utf-8");
for(int i=0;i<bs.length+1;i++){
String s=cutStringByUTF8(str, i);
System.out.println(i+":"+s);
}
}
结果:
0:
1:a
2:ad
3:ad
4:ad
5:ad湖
6:ad湖n
7:ad湖na
8:ad湖nan
9:ad湖nan
10:ad湖nan
11:ad湖nan班
12:ad湖nan班
13:ad湖nan班
14:ad湖nan班分
15:ad湖nan班分
16:ad湖nan班分
17:ad湖nan班分解
18:ad湖nan班分解
19:ad湖nan班分解
20:ad湖nan班分解机
21:ad湖nan班分解机
22:ad湖nan班分解机
23:ad湖nan班分解机琲
方法二:
//从后往前读取
private String cutStringByUTF8_2(String str,int len){//把str从len位置截取
//因为中文在utf-8编码中占3~4个字节。有些不常用的中文在utf-8编码中占4个字节
//这里按照中文占3个字节来算
try {
byte bs[]=str.getBytes("utf-8");
int count=0;//计数
for(int i=len-1;i>=0;i--){
if(bs[i]<0){
count++;
}else{
break;
}
}
return new String(bs,0,len-(count%3),"utf-8");
} catch (UnsupportedEncodingException e) {
throw new RuntimeException("不支持utf-8编码");
}
}
测试:
@Test
public void testCutStringByUTF8_2() throws IOException{
String str="ad湖nan班分解机琲";
byte bs[]=str.getBytes("utf-8"); //平台编码
for(int i=0;i<bs.length+1;i++){
String s=cutStringByUTF8_2(str, i);
System.out.println(i+":"+s);
}
}
结果:
0:
1:a
2:ad
3:ad
4:ad
5:ad湖
6:ad湖n
7:ad湖na
8:ad湖nan
9:ad湖nan
10:ad湖nan
11:ad湖nan班
12:ad湖nan班
13:ad湖nan班
14:ad湖nan班分
15:ad湖nan班分
16:ad湖nan班分
17:ad湖nan班分解
18:ad湖nan班分解
19:ad湖nan班分解
20:ad湖nan班分解机
21:ad湖nan班分解机
22:ad湖nan班分解机
23:ad湖nan班分解机琲