JAVA 正则匹配遇到的一个问题

帮哥大的同学做python转Java的编程style题时遇到的问题:

问的大致是这样的,统计文本里单词的个数,需要把非字母和数字的字符给去掉,用了两段不同的代码,发现运行结果里对有些单词的统计数量不一致:

代码是这样的:

code1:

for(int i=0;i<line.length();i++ ){
    			char ch = line.charAt(i);
    			if(!Character.isLetterOrDigit(ch)) sbtmp.append(' ');
    			else sbtmp.append(Character.toLowerCase(ch));
    		}

还有一段比较简单,用了String的replaceAll方法

code2:

line.replaceAll("\\W+", " ").toLowerCase()+" ";

最终结果上面的代码是正确的,下面一段代码运行结果会比实际值小一些。通过打印除了有差异行的处理结果,差别在这里:

原文:
Charlotte so _very_ plain--but then she is our particular friend."
code1处理结果:
charlotte so  very  plain  but then she is our particular friend 
code2处理结果:
charlotte so _very_ plain but then she is our particular friend 

看到正则表达式的规范里才知道:

\w :匹配包括下划线的任何单词字符,等价于 [A-Z a-z 0-9_]
\W :匹配任何非单词字符,等价于 [^A-Z a-z 0-9_]




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值