面试题：字符串截取

最新推荐文章于 2019-02-28 13:57:38 发布

饿狼干爹

最新推荐文章于 2019-02-28 13:57:38 发布

阅读量1k

点赞数 3

分类专栏： java 面试题文章标签：面试题字符串截取

本文链接：https://blog.csdn.net/u011479875/article/details/47449291

版权

java 同时被 2 个专栏收录

27 篇文章 0 订阅

订阅专栏

面试题

3 篇文章 0 订阅

订阅专栏

字符串截取

题目：在java中，字符串“abcd”与字符串“ab你好”的长度是一样，都是四个字符。但对应的字节数不同，一个汉字占两个字节。定义一个方法，按照指定的字节数来取子串。如：

对于“ab你好”，如果取三个字节，那么子串就是ab与“你”字的半个，那么半个就要舍弃。如果取四个字节就是“ab你”，取五个字节还是“ab你”。

解题思路：咋一看，以为就是注意汉字字节时的处理问题。其实还应该考虑在不同的编码格式中，汉字占的字节也会不一样，如：gbk编码格式下汉字一般占两个字节，且

均小于0，而在utf-8，汉字占两个字节，但是是一负一正。所以要考虑系统当前编码格式。

代码：



import java.io.UnsupportedEncodingException;

public class StringCutDemo {

	public static void main(String[] args) {
		String str="ab你好琲c琲琲我琲琲琲琲";//大部分汉字的字节码值：2个负数，还有一小部分不常用的汉字如“琲”的字节码值是：1负1正（前负后正)
		byte buf[] = null;
//		try {
//			//buf = str.getBytes("gbk");
//			buf = str.getBytes("utf-8");
//			
//		} catch (UnsupportedEncodingException e) {
//			e.printStackTrace();
//		}
		buf = str.getBytes();
		
		//观察
		for(byte b:buf){
			System.out.print(b+" ");
		}
		System.out.println();
		
		//测试
		System.out.println(str);
		System.out.println("---------------------");
		for(int i=0;i<=buf.length;i++){
			//String s = cutStringByByteGbk(str,i);//当为gbk格式时
			//String s = cutStringByByteUtf8(str,i);//当为utf-8时2
//			String s = cutStringByByte(str,i);//判断系统编码格式，然后调用上面两个方法
			String s = cutString(str,i);//确定当前格式，然后通用两种格式
			System.out.println("截取"+i+"个，结果是:"+s);
		}
		
	}

	private static String cutString(String str, int len) {
		try {
			//获取字节数组
			String string=System.getProperty("file.encoding");
			int a=0;
			if(string.equalsIgnoreCase("gbk")){
				a=2;
			}
			if(string.equalsIgnoreCase("utf-8")){
				a=3;
			}
			if(a==0){
				return "";
			}
			byte buf[] = str.getBytes(string);
			int count=0;
			//从第len个字节处开始，从后往前，统计字节码值为负的“字节的个数”
			for(int i=len-1; i>=0; i--){
				if(buf[i]<0){
					count++;
				}else{
					break;
				}
			}
			if(count%a==0){//字节码值为负的字节的个数为偶数，则说明汉字刚好截整齐
				return new String(buf,0,len,string);
			}else{//奇数，要丢掉多余的字节
				return new String(buf,0,len-count%a,string);
			}
		} catch (UnsupportedEncodingException e) {
			throw new RuntimeException("字符串编码异常!");
		}
	}

	private static String cutStringByByteGbk(String str, int len) {
		try {
			//获取字节数组
			byte buf[] = str.getBytes("GBK");
			int count=0;
			//从第len个字节处开始，从后往前，统计字节码值为负的“字节的个数”
			for(int i=len-1; i>=0; i--){
				if(buf[i]<0){
					count++;
				}else{
					break;
				}
			}
			if(count%2==0){//字节码值为负的字节的个数为偶数，则说明汉字刚好截整齐
				return new String(buf,0,len,"gbk");
			}else{//奇数，要丢掉最后一个字节
				return new String(buf,0,len-1,"gbk");
			}
		} catch (UnsupportedEncodingException e) {
			throw new RuntimeException("字符串编码异常!");
		}
		
	}
	
	
	private static String cutStringByByteUtf8(String str, int len) {
		try {
			//获取字节数组
			byte buf[] = str.getBytes("utf-8");
			int count=0;
			//从第len个字节处开始，从后往前，统计字节码值为负的“字节的个数”
			for(int i=len-1; i>=0; i--){
				if(buf[i]<0){
					count++;
				}else{
					break;
				}
			}
			if(count%3==0){//字节码值为负的字节的个数为3的倍数，则说明汉字刚好截整齐
				return new String(buf,0,len,"utf-8");
			}else{//其它，要丢掉最后多余的字节
				return new String(buf,0,len-count%3,"utf-8");
			}
		} catch (UnsupportedEncodingException e) {
			throw new RuntimeException("字符串编码异常!");
		}
	}

	public static String cutStringByByte(String str, int len){
		if(System.getProperty("file.encoding").equalsIgnoreCase("gbk")){
//			System.out.println(System.getProperty("file.encoding"));
			return cutStringByByteGbk(str,len);
		}
		if(System.getProperty("file.encoding").equalsIgnoreCase("utf-8")){
			return cutStringByByteUtf8(str,len);
		}
		return "";
	}
	
}

饿狼干爹

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
面试题：字符串截取

字符串截取题目：在java中，字符串“abcd”与字符串“ab你好”的长度是一样，都是四个字符。但对应的字节数不同，一个汉字占两个字节。定义一个方法，按照指定的字节数来取子串。如：对于“ab你好”，如果取三个字节，那么子串就是ab与“你”字的半个，那么半个就要舍弃。如果取四个字节就是“ab你”，取五个字节还是“ab你”。解题思路：咋一看，以为就是注意汉字字节时的处理问题。其实还应该
复制链接

扫一扫