java分割汉字_Java 分割字符串---按字节长度分割带有中文字符串,中文不乱码

http://www.zhihu.com/question/20451870。如果我们按照字节数来截取带中文的字符串,就有可能截取了半个或者三分之一个汉字,导致乱码的出现。

package com.java.string.split;

import java.util.ArrayList;

import java.util.List;

public class ChineseSplit {

public static final String chineseString = "我是testString哈哈哈";

public static void main(String[] args) {

List splitStringList = chineseSplitFunction(chineseString, 5);

for (String split:splitStringList) {

System.out.println(split);

}

}

public static List chineseSplitFunction(String src, int bytes){

try {

if(src == null){

return null;

}

List splitList = new ArrayList();

int startIndex = 0; //字符串截取起始位置

int endIndex = bytes > src.length() ? src.length() : bytes; //字符串截取结束位置

while(startIndex < src.length()){

String subString = src.substring(startIndex,endIndex);

//截取的字符串的字节长度大于需要截取的长度时,说明包含中文字符

//在GBK编码中,一个中文字符占2个字节,UTF-8编码格式,一个中文字符占3个字节。

while (subString.getBytes("GBK").length > bytes) {

--endIndex;

subString = src.substring(startIndex,endIndex);

}

splitList.add(src.substring(startIndex,endIndex));

startIndex = endIndex;

//判断结束位置时要与字符串长度比较(src.length()),之前与字符串的bytes长度比较了,导致越界异常。

endIndex = (startIndex + bytes) > src.length() ?

src.length() : startIndex+bytes ;

}

return splitList;

} catch (Exception e) {

e.printStackTrace();

}

return null;

}

}

下面是看到的另外一种处理方式http://www.blogjava.net/KingKong/archive/2009/09/22/296088.html

分享到:

18e900b8666ce6f233d25ec02f95ee59.png

72dd548719f0ace4d5f9bca64e1d7715.png

2015-05-17 00:14

浏览 4600

评论

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值