字符串截取
题目:在java中,字符串“abcd”与字符串“ab你好”的长度是一样,都是四个字符。但对应的字节数不同,一个汉字占两个字节。定义一个方法,按照指定的字节数来取子串。如:
对于“ab你好”,如果取三个字节,那么子串就是ab与“你”字的半个,那么半个就要舍弃。如果取四个字节就是“ab你”,取五个字节还是“ab你”。
解题思路:咋一看,以为就是注意汉字字节时的处理问题。其实还应该考虑在不同的编码格式中,汉字占的字节也会不一样,如:gbk编码格式下汉字一般占两个字节,且
均小于0,而在utf-8,汉字占两个字节,但是是一负一正。所以要考虑系统当前编码格式。
代码:
import java.io.UnsupportedEncodingException;
public class StringCutDemo {
public static void main(String[] args) {
String str="ab你好琲c琲琲我琲琲琲琲";//大部分汉字的字节码值:2个负数,还有一小部分不常用的汉字如“琲”的字节码值是:1负1正(前负后正)
byte buf[] = null;
// try {
// //buf = str.getBytes("gbk");
// buf = str.getBytes("utf-8");
//
// } catch (UnsupportedEncodingException e) {
// e.printStackTrace();
// }
buf = str.getBytes();
//观察
for(byte b:buf){
System.out.print(b+" ");
}
System.out.println();
//测试
System.out.println(str);
System.out.println("---------------------");
for(int i=0;i<=buf.length;i++){
//String s = cutStringByByteGbk(str,i);//当为gbk格式时
//String s = cutStringByByteUtf8(str,i);//当为utf-8时2
// String s = cutStringByByte(str,i);//判断系统编码格式,然后调用上面两个方法
String s = cutString(str,i);//确定当前格式,然后通用两种格式
System.out.println("截取"+i+"个,结果是:"+s);
}
}
private static String cutString(String str, int len) {
try {
//获取字节数组
String string=System.getProperty("file.encoding");
int a=0;
if(string.equalsIgnoreCase("gbk")){
a=2;
}
if(string.equalsIgnoreCase("utf-8")){
a=3;
}
if(a==0){
return "";
}
byte buf[] = str.getBytes(string);
int count=0;
//从第len个字节处开始,从后往前,统计字节码值为负的“字节的个数”
for(int i=len-1; i>=0; i--){
if(buf[i]<0){
count++;
}else{
break;
}
}
if(count%a==0){//字节码值为负的字节的个数为偶数,则说明汉字刚好截整齐
return new String(buf,0,len,string);
}else{//奇数,要丢掉多余的字节
return new String(buf,0,len-count%a,string);
}
} catch (UnsupportedEncodingException e) {
throw new RuntimeException("字符串编码异常!");
}
}
private static String cutStringByByteGbk(String str, int len) {
try {
//获取字节数组
byte buf[] = str.getBytes("GBK");
int count=0;
//从第len个字节处开始,从后往前,统计字节码值为负的“字节的个数”
for(int i=len-1; i>=0; i--){
if(buf[i]<0){
count++;
}else{
break;
}
}
if(count%2==0){//字节码值为负的字节的个数为偶数,则说明汉字刚好截整齐
return new String(buf,0,len,"gbk");
}else{//奇数,要丢掉最后一个字节
return new String(buf,0,len-1,"gbk");
}
} catch (UnsupportedEncodingException e) {
throw new RuntimeException("字符串编码异常!");
}
}
private static String cutStringByByteUtf8(String str, int len) {
try {
//获取字节数组
byte buf[] = str.getBytes("utf-8");
int count=0;
//从第len个字节处开始,从后往前,统计字节码值为负的“字节的个数”
for(int i=len-1; i>=0; i--){
if(buf[i]<0){
count++;
}else{
break;
}
}
if(count%3==0){//字节码值为负的字节的个数为3的倍数,则说明汉字刚好截整齐
return new String(buf,0,len,"utf-8");
}else{//其它,要丢掉最后多余的字节
return new String(buf,0,len-count%3,"utf-8");
}
} catch (UnsupportedEncodingException e) {
throw new RuntimeException("字符串编码异常!");
}
}
public static String cutStringByByte(String str, int len){
if(System.getProperty("file.encoding").equalsIgnoreCase("gbk")){
// System.out.println(System.getProperty("file.encoding"));
return cutStringByByteGbk(str,len);
}
if(System.getProperty("file.encoding").equalsIgnoreCase("utf-8")){
return cutStringByByteUtf8(str,len);
}
return "";
}
}