按字节截取含有中文汉字的字符串

  Java中1个char类型的变量可存储任意编码的1个字符,如1个ASC码和或1个中文字符,例如:含有3个ASC和含有3个汉字字符的字符串长度是一样的: 
     "1ac" .length () == 3
     "你好a" .length () = 3
但上述两个字符串所占的byte是不一样的,前者是3,后者是5(1个汉字2byte)。
请编写函数: 
     public static  String leftStr ( String source,  int  maxByteLen )
  从source中取最大maxByteLen个byte的子串。当最后一个byte恰好为一个汉字的前半个字节时,舍弃此byte。例如: 
      String str= "我LRW爱JAVA" ;
      leftStr ( str, 1 ) == "" ;
      leftStr ( str, 2 ) == "我" ;
      leftStr ( str, 4 ) == "我LR" ;
      leftStr ( str, 11 ) == "我LRW" ;
或者,当最后一个byte恰好为一个汉字的前半个字节时,补全汉字(多截取一个byte)。例如: 
      String str= "我LRW爱JAVA" ;
      leftStr ( str, 1 ) == "我" ;
      leftStr ( str, 2 ) == "我" ;
      leftStr ( str, 4 ) == "我LR" ;
      leftStr ( str, 11 ) == "我LRW爱" ;

  一种做法是依次判断每一个字符是否为中文。(参考http://zangweiren.javaeye.com/blog/216005 中的四)

  在此考虑另一种解决办法。因为汉字只涉及到最后一个字节,当最后一个字节是汉字的前半个字节时需要特殊处理,所以就围绕“怎么判断最后一个字节是汉字的前半个字节 ”进行考虑。单独来讲,是无法判定一个字节到底是不是一个汉字的前半个字节,但可以判断出是否是字串中某个汉字的前半个字节。汉字为:“/u4e00-/u9fa5 ”(未考证)

  解决办法就是:将截取的最后一个字节与紧跟在后面的一个字节进行组合(考虑后面已经没字节的情况),判断组合出来的一个字符是否包含在原字符串中:如果包含,则说明是前半个汉字;如果不包含,则说明不是前半个汉字。(应该也无法区分汉字、韩文、日文)。

  以“我LRW爱JAVA”为例。其getBytes()(使用默认的字符集)得到的二进制码为:CED2 4C 52 57 B0AE 4A 41 56 41
  截取前1个字节时,为“CE”,那么就判断“CED2”是否是前半个汉字,用“CED2”构造一个字符出来(亦使用默认字符集),判断构造出来的字符是否包含在原字串中。发现构造出来的字符是“我”,显然包含在原字串中,所以是前半个汉字。
  截取前2个字节时,为“CED2”(就是“我”字),那么就判断“D2”是否是前半个汉字,用“D24C”构造一个字符出来(亦使用默认字符集),发现构造出来的字符是“襆”,显然不包含在原字串中,所以不是前半个汉字。

  判断出来了最后一个字节是否为前半个汉字后就很容易处理了,一种是舍弃最后一个字节,一种是加多一个字节,以便保证汉字的完整。

  所有过程均采用默认字符集,绕过了不同字符集编码不同的影响。

完整源码如下:

    /**
      * Java中1个char类型的变量可存储任意编码的1个字符,如1个ASC码和或1个中文字符,
      * 例如:含有3个ASC和含有3个汉字字符的字符串长度是一样的: "1ac".length()==3;  "你好a".length()=3;
      * 但上述两个字符串所占的byte是不一样的,前者是3,后者是5(1个汉字2byte)。
      * 请编写函数:
      *     public static String leftStr(String source, int maxByteLen)
      * 从source中取最大maxByteLen个byte的子串。
      * 当最后一个byte恰好为一个汉字的前半个字节时,舍弃此byte。例如:
      *     String str="我LRW爱JAVA";
      *     leftStr(str,1,-1)=="";
      *     leftStr(str,2,-1)=="我";
      *     leftStr(str,4,-1)=="我LR";
      *     leftStr(str,11,-1)=="我LRW";
      * 当最后一个byte恰好为一个汉字的前半个字节时,补全汉字(多取一个字节)。例如:
      *     String str="我LRW爱JAVA";
      *     leftStr(str,1,1)=="我";
      *     leftStr(str,2,1)=="我";
      *     leftStr(str,4,1)=="我LR";
      *     leftStr(str,11,1)=="我LRW爱";
      *
      @param  source 原始字符串
      @param  maxByteLen 截取的字节数
      @param  flag 表示处理汉字的方式。1表示遇到半个汉字时补全,-1表示遇到半个汉字时舍弃
      @return 截取后的字符串
      */
     public static  String leftStr ( String source,  int  maxByteLen,  int  flag ){
         if ( source ==  null  || maxByteLen <=  0 ){
             return  "" ;
         }
         byte []  bStr = source.getBytes () ;
         if ( maxByteLen >= bStr.length ) return  source;
         String cStr =  new  String ( bStr, maxByteLen -  1 2 ) ;
         if ( cStr.length ()  ==  && source.contains ( cStr )){
             maxByteLen += flag;
         }
         return new  String ( bStr,  0 , maxByteLen ) ;
     }

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
Java中,字符串字节截取遇到汉字的情况需要特别处理。一般而言,一个汉字占据两个字节存储空间。为了正确处理汉字字符串中的截取,可以使用Java的String类中的getBytes()方法来获取字符串字节数组,然后根据字节数组的长度进行截取。 具体的做法是,首先将字符串转换为字节数组,然后遍历字节数组,统计字节数,直到达到指定的截取长度。需要注意的是,若截取的最后一个字符正好是半个汉字,要将其舍弃,以保证截取后的字符串是完整的。最后,再将字节数组转换为字符串,即可得到按字节截取后的字符串。 下面是一个示例代码: ```java public static String subStringByBytes(String str, int limit) { byte[] bytes = str.getBytes(); int length = bytes.length; if (limit >= length) { return str; } int count = 0; for (int i = 0; i < limit; i++) { if ((bytes[i] & 0xFF) > 128) { count++; } } if (count % 2 != 0) { limit = limit - 1; } return new String(bytes, 0, limit); } public static void main(String[] args) { String str = "Hello, 你好!"; String newStr = subStringByBytes(str, 9); System.out.println(newStr); // 输出:Hello, 你 } ``` 在以上代码中,定义了一个`subStringByBytes`方法,该方法接受一个字符串和一个限制的字节数作为参数,并返回按字节截取后的字符串。在示例中,将字符串"Hello, 你好!"按字节截取9个字节长度,结果为"Hello, 你"。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值