java分割汉字_Java 分割字符串---按字节长度分割带有中文字符串，中文不乱码

正直boy

于 2021-02-12 20:51:28 发布

阅读量1.7k

点赞数

文章标签： java分割汉字

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29065659/article/details/114074848

版权

http://www.zhihu.com/question/20451870。如果我们按照字节数来截取带中文的字符串，就有可能截取了半个或者三分之一个汉字，导致乱码的出现。

package com.java.string.split;

import java.util.ArrayList;

import java.util.List;

public class ChineseSplit {

public static final String chineseString = "我是testString哈哈哈";

public static void main(String[] args) {

List splitStringList = chineseSplitFunction(chineseString, 5);

for (String split:splitStringList) {

System.out.println(split);

}

}

public static List chineseSplitFunction(String src, int bytes){

try {

if(src == null){

return null;

}

List splitList = new ArrayList();

int startIndex = 0; //字符串截取起始位置

int endIndex = bytes > src.length() ? src.length() : bytes; //字符串截取结束位置

while(startIndex < src.length()){

String subString = src.substring(startIndex,endIndex);

//截取的字符串的字节长度大于需要截取的长度时，说明包含中文字符

//在GBK编码中，一个中文字符占2个字节，UTF-8编码格式，一个中文字符占3个字节。

while (subString.getBytes("GBK").length > bytes) {

--endIndex;

subString = src.substring(startIndex,endIndex);

}

splitList.add(src.substring(startIndex,endIndex));

startIndex = endIndex;

//判断结束位置时要与字符串长度比较(src.length())，之前与字符串的bytes长度比较了，导致越界异常。

endIndex = (startIndex + bytes) > src.length() ?

src.length() : startIndex+bytes ;

}

return splitList;

} catch (Exception e) {

e.printStackTrace();

}

return null;

}

}

下面是看到的另外一种处理方式http://www.blogjava.net/KingKong/archive/2009/09/22/296088.html

分享到：

2015-05-17 00:14

浏览 4600

评论

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。