【开卷故意】JAVA正則表達式模版

专业既然是机器学习。那工作肯定也是继续和数据打交道,那么问题来了,非常多时候推荐算法和数据挖掘算法都是现成可用的,平台初建,重点还在数据过滤和抽取。如何高效的抽取数据?


利用往常算法比赛中经常使用的字符串处理方法吗,omg,维护它是一个淡淡疼的忧伤。


那么,重点来了。正則表達式,干净利落。


模版例如以下:


//step1,set reg string
String regStr = "^helloworld"

//step2,set Pattern
Pattern regPattern = Pattern.compile(regStr );

//step3,set Matcher
Matcher regMatcher = regPattern.matcher(srcText);

//step4,display what you found from this pattern
if(regMatcher.find()){
    System.out.print(regMatcher.group());
}


当然,首先你得会写正則表達式。记住,能分组就分组。特征相关数据提取会非常顺利。


模版非常easy。正则抽取的正則表達式是重点。


那么,多次匹配怎么办。谨记,正则抽取是树形结构。用for循环。你就输了。


解决方式:状态机。甚至,你能够用回调函数(callable接口)来做这件事


这属于后话。码字累了,今天主要是开卷。





  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值