java面试题 字符串截取

今天在外面看到一个java面试题关于字符串截取的,在这里跟大家分享一下

题目如下:

在java中,字符串“abcd”与字符串“ab你好”的长度是一样,都是四个字符。
但对应的字节数不同,一个汉字占两个字节。
定义一个方法,按照指定的字节数来取子串。
如:对于“ab你好”,如果取三个字节,那么子串就是ab与“你”字的半个,那么半个就要舍弃。如果取四个字节就是“ab你”,取五个字节还是“ab你”。

1.考虑gbk编码

方法一:

//从前往后读取
	private String cutStringByGBK2(String str,int len){//把str从len位置截取
		//这种方法存在bug
		//BUG:琲(bei):GBK编码:-84 105
		String resStr="";
		try {
			byte bs[]=str.getBytes("gbk");
			int count=0;	//计数
			for(int i=0;i<len;i++){
				if(bs[i]<0){
					count++;
					if(count==2){
						String s=new String(bs,i-1,2,"gbk");
						resStr+=s;
						count=0;
					}
				}else{
					resStr+=(char)bs[i];
				}
			}
		} catch (UnsupportedEncodingException e) {
			throw new RuntimeException("不支持gbk编码");
		}
		return resStr;
	}
测试:

@Test
	public void testCutStringByGBK2() throws IOException{
		String str="ad湖nan班分解机琲";
		byte bs[]=str.getBytes("gbk");
		for(int i=0;i<bs.length+1;i++){
			String s=cutStringByGBK2(str, i);
			System.out.println(i+":"+s);
			
		}
	}
结果:

0:
1:a
2:ad
3:ad
4:ad湖
5:ad湖n
6:ad湖na
7:ad湖nan
8:ad湖nan
9:ad湖nan班
10:ad湖nan班
11:ad湖nan班分
12:ad湖nan班分
13:ad湖nan班分解
14:ad湖nan班分解
15:ad湖nan班分解机
16:ad湖nan班分解机
17:ad湖nan班分解机i

方法二:

//从后往前读取
	private String cutStringByGBK1(String str,int len){//把str从len位置截取
		try {
			byte bs[]=str.getBytes("gbk");
			int count=0;//计数
			for(int i=len-1;i>=0;i--){
				if(bs[i]<0){
					count++;
				}else{
					break;
				}
			}
			if(count%2==0){
				return new String(bs,0,len,"gbk");
			}else{
				return new String(bs,0,len-1,"gbk");
			}
		} catch (UnsupportedEncodingException e) {
			throw new RuntimeException("不支持gbk编码");
		}
	}
测试:

@Test
	public void testCutStringByGBK1() throws IOException{
		String str="ad湖nan班分解机琲";
		byte bs[]=str.getBytes("gbk");
		for(int i=0;i<bs.length+1;i++){
			String s=cutStringByGBK1(str, i);
			System.out.println(i+":"+s);
			
		}
	}
结果:

0:
1:a
2:ad
3:ad
4:ad湖
5:ad湖n
6:ad湖na
7:ad湖nan
8:ad湖nan
9:ad湖nan班
10:ad湖nan班
11:ad湖nan班分
12:ad湖nan班分
13:ad湖nan班分解
14:ad湖nan班分解
15:ad湖nan班分解机
16:ad湖nan班分解机
17:ad湖nan班分解机琲

2.考虑utf-8编码

方法一:

//从前往后读取
	private String cutStringByUTF8(String str,int len){
		//因为中文在utf-8编码中占3~4个字节。有些不常用的中文在utf-8编码中占4个字节
		//这里按照中文占3个字节来算 	//utf-8编码 :琲:-25 -112 -78
		String resStr="";
		try {
			byte bs[]=str.getBytes("utf-8");
			int count=0;	//计数
			for(int i=0;i<len;i++){
				if(bs[i]<0){
					count++;
					if(count==3){
						String s=new String(bs,i-2,3,"utf-8");
						resStr+=s;
						count=0;
					}
				}else{
					resStr+=(char)bs[i];
				}
			}
		} catch (UnsupportedEncodingException e) {
			throw new RuntimeException("不支持utf-8编码");
		}
		return resStr;
	}
测试:

@Test
	public void testCutStringByUTF8_1() throws IOException{
		String str="ad湖nan班分解机琲";
		byte bs[]=str.getBytes("utf-8");	
		for(int i=0;i<bs.length+1;i++){
			String s=cutStringByUTF8(str, i);
			System.out.println(i+":"+s);
			
		}
	}

结果:

0:
1:a
2:ad
3:ad
4:ad
5:ad湖
6:ad湖n
7:ad湖na
8:ad湖nan
9:ad湖nan
10:ad湖nan
11:ad湖nan班
12:ad湖nan班
13:ad湖nan班
14:ad湖nan班分
15:ad湖nan班分
16:ad湖nan班分
17:ad湖nan班分解
18:ad湖nan班分解
19:ad湖nan班分解
20:ad湖nan班分解机
21:ad湖nan班分解机
22:ad湖nan班分解机
23:ad湖nan班分解机琲
方法二:

//从后往前读取
	private String cutStringByUTF8_2(String str,int len){//把str从len位置截取
		//因为中文在utf-8编码中占3~4个字节。有些不常用的中文在utf-8编码中占4个字节
		//这里按照中文占3个字节来算
		try {
			byte bs[]=str.getBytes("utf-8");
			int count=0;//计数
			for(int i=len-1;i>=0;i--){
				if(bs[i]<0){
					count++;
				}else{
					break;
				}
			}
			return new String(bs,0,len-(count%3),"utf-8");
			
		} catch (UnsupportedEncodingException e) {
			throw new RuntimeException("不支持utf-8编码");
		}
	}
测试:

@Test
	public void testCutStringByUTF8_2() throws IOException{
		String str="ad湖nan班分解机琲";
		byte bs[]=str.getBytes("utf-8");	//平台编码
		for(int i=0;i<bs.length+1;i++){
			String s=cutStringByUTF8_2(str, i);
			System.out.println(i+":"+s);
			
		}
	}
结果:

0:
1:a
2:ad
3:ad
4:ad
5:ad湖
6:ad湖n
7:ad湖na
8:ad湖nan
9:ad湖nan
10:ad湖nan
11:ad湖nan班
12:ad湖nan班
13:ad湖nan班
14:ad湖nan班分
15:ad湖nan班分
16:ad湖nan班分
17:ad湖nan班分解
18:ad湖nan班分解
19:ad湖nan班分解
20:ad湖nan班分解机
21:ad湖nan班分解机
22:ad湖nan班分解机
23:ad湖nan班分解机琲

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值