subString中英文截取问题以及方法

今天用到subString时发现当我们在分别截取中英文时会出现意想不到的问题啊。。。

subString 截取的是个数,而不是按字节数来截取。

 

解决问题方法:

1. 如果是纯中英文,很简单,不解释。

2. 如果是中英文混合写,需要考虑到转换成byte数组来处理时,可能会碰到乱码的问题。比如你刚好截取到中文的一半。。。

给出一个方法:【利用java中文是用Unicode编码即UCS2编码来制作一个byte数组,利用内部机制来凑齐字符】

public static String bSubstring(String s, int length) throws Exception
    {

        byte[] bytes = s.getBytes("Unicode");
        int n = 0; // 表示当前的字节数
        int i = 2; // 前两个字节是标志位,bytes[0] = -2,bytes[1] = -1。所以从第3位开始截取。
        for (; i < bytes.length && n < length; i++)
        {
            // 奇数位置,如3、5、7等,为UCS2编码中两个字节的第二个字节
            if (i % 2 == 1)
            {
                n++; // 在UCS2第二个字节时n加1
            }
            else
            {
                // 当UCS2编码的第一个字节不等于0时,该UCS2字符为汉字,一个汉字算两个字节
                if (bytes[i] != 0)
                {
                    n++;
                }
            }
        }
        // 如果i为奇数时,处理成偶数
        if (i % 2 == 1)

        {
            // 该UCS2字符是汉字时,去掉这个截一半的汉字
            if (bytes[i - 1] != 0)
                i = i - 1;
            // 该UCS2字符是字母或数字,则保留该字符
            else
                i = i + 1;
        }

        return new String(bytes, 0, i, "Unicode");
    }
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值