String的trim()方法不能去除的空格(ASCII码160)

JAVA 去除前后空格

String trim 方法去除

String space = " 这是空格 ";
//content 的字符串是: " 这是空格 " (肉眼看,前后都有空格),
//这里是为了达到我们的效果,让 看起来就跟普通空格一样
String content = StringEscapeUtils.unescapeHtml4(space);
//trim1 的结果是" 这是空格" (最前面还是有一个空格,后面没有了)
String trim1 = content.trim();

因为trim方法只能去除 普通的空格,也就是ASCII码中32的空格。而  的ASCII码是160

//content 是 " 这是空格 "(第一个空格是 )
char[] chars = content.toCharArray();
for (char c : chars) {
    System.out.println(((int) c));
}

得到的结果:

160
36825
26159
31354
26684
32

trim 方法实现

 public String trim() {
        int len = value.length;
        int st = 0;
        char[] val = value;    /* avoid getfield opcode */

        while ((st < len) && (val[st] <= ' ')) {
            st++;
        }
        while ((st < len) && (val[len - 1] <= ' ')) {
            len--;
        }
        return ((st > 0) || (len < value.length)) ? substring(st, len) : this;
}

只看它的判断逻辑就可以了。它就是判断当前char的ASCII码 是不是比普通的空格(ASCII码为32)ASCII码小。如果是就进入截取去除的范围。

从ASCII码对照表可以看到,比空格(ASCII码为32)的ASCII码小的有下面这些:

所以trim方法,能去除的不只只是空格,还有上面这些。

 

// ' ' 就是普通空格
val[len - 1] <= ' '

&nbsp; 这种html空格是去除不了的。

 

解决问题方法

 

匹配替代法

String s = content.replaceAll("\u00A0", "");

00A0是16进制,它的10进制就是160

这样就能把&nbsp; 替换掉了。

 

StringUtils.normalizeSpace()

可用使用Apache commons 工具包中的 StringUtils.normalizeSpace() 方法

它把特殊的空格替代成普通的空格(不知道这样表述对不对)

public class StringUtils {
    ...省略
    private static final Pattern WHITESPACE_PATTERN = Pattern.compile("(?: |\\u00A0|\\s|[\\s&&[^ ]])\\s*");

    public static String normalizeSpace(String str) {
        return str == null ? null : WHITESPACE_PATTERN.matcher(trim(str)).replaceAll(" ");
    }
}

从上面的方法实现可以看出,也是通过匹配替换的方式处理的,但这工具能处理更多种空白符。而且不用我们自己手写正则。

 

总结

在处理一些跟html、xml、Word(Word处理时也是转成xml或者html之类的)等有关的字符串时,要有这种意识,处理的字符串中可能会包含html转义符。

使用一些String工具类,可以提高工作效率和减少一点BUG。

 

 

转载于:https://my.oschina.net/isaac21/blog/1794528

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值