Java 分割字符串---按字节长度分割带有中文字符串，中文不乱码

最新推荐文章于 2024-06-30 03:14:03 发布

lg904cyf

最新推荐文章于 2024-06-30 03:14:03 发布

阅读量3k

点赞数

分类专栏： Java 文章标签： java string 字符串截取中文乱码

本文链接：https://blog.csdn.net/lg904cyf/article/details/84718894

版权

Java 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

中文在不同编码中占用的字节数是不同的，GBK编码中，一个汉字占两个字节，UTF-8编码格式中，一个汉字占3个字节。关于汉字所占字节，知乎有此问答，[url]http://www.zhihu.com/question/20451870[/url]。如果我们按照字节数来截取带中文的字符串，就有可能截取了半个或者三分之一个汉字，导致乱码的出现。


package com.java.string.split;

import java.util.ArrayList;
import java.util.List;


public class ChineseSplit {

	public static final String chineseString = "我是testString哈哈哈";

	public static void main(String[] args) {
		List<String> splitStringList = chineseSplitFunction(chineseString, 5);
		for (String split:splitStringList) {
			System.out.println(split);
		}
	}

	public static List<String> chineseSplitFunction(String src, int bytes){
		try {
			if(src == null){
				return null;
			}
			List<String> splitList = new ArrayList<String>();
			int startIndex = 0;    //字符串截取起始位置
			int endIndex = bytes > src.length() ? src.length() : bytes;  //字符串截取结束位置 
			while(startIndex < src.length()){
				String subString = src.substring(startIndex,endIndex);
				//截取的字符串的字节长度大于需要截取的长度时，说明包含中文字符
				//在GBK编码中，一个中文字符占2个字节，UTF-8编码格式，一个中文字符占3个字节。
				while (subString.getBytes("GBK").length > bytes) {
					--endIndex;
					subString = src.substring(startIndex,endIndex);
				}
				splitList.add(src.substring(startIndex,endIndex));
				startIndex = endIndex;
				//判断结束位置时要与字符串长度比较(src.length())，之前与字符串的bytes长度比较了，导致越界异常。
				endIndex = (startIndex + bytes) > src.length() ? 
						src.length()  : startIndex+bytes ;

			}
			return splitList;

		} catch (Exception e) {
			e.printStackTrace();
		}
		return null;

	}

}