java 正则表达式解析数据

1 背景

在写代码过程中,会遇到一些解析需求,需要把字符串里面的某些东西提取出来。和作者信息,生日,地址,年龄之类的。虽然用java 自带String.split()方法能够处理大部分需求了,但显得比较笨拙,因为需要去遍历数组。

2 实战

String dataId = “hello world my name is: DayDayUp. and my birthday is 8.9. unmappedReason,version”;

对于上面这个字符串,现在需要我们把DayDayUp获取出来。则需要先写提取的表达式,
String REGEX = “name is:(.*?)\. and”;
整体逻辑如下:


    @Test
    public void spliteAppNameTest2() {
        String dataId = "hello world my name is: DayDayUp. and my birthday is 8.9. unmappedReason,version";
        String REGEX = "name is:(.*?)\\. and";

        System.out.println(getPatternCode(dataId,REGEX));
    }

    public static String getPatternCode(String dataId, String rgex) {
        if (StringUtils.isEmpty(dataId)) {
            return null;
        }

        // 匹配的模式
        Pattern pattern = Pattern.compile(rgex);
        Matcher m = pattern.matcher(dataId);
        while (m.find()) {
            return m.group(1);
        }
        return null;
    }
}

输出: DayDayUp
getPatternCode()封装了具体的逻辑。如果找到,即满足正则表达式规则,则返回第一个分分组。
ps: 需要用(.?)来提取-补获组,.?表示非贪婪式匹配。.*表示贪婪式匹配。

3 思考

获取生日如何写呢?

 @Test
    public void spliteAppNameTest2() {
        String dataId = "hello world my name is: DayDayUp. and my birthday is 8.9. unmappedReason,version";
        String REGEX = "birthday is (.*?)\\. unmappedReason";

        System.out.println(getPatternCode(dataId,REGEX));
    }

    public static String getPatternCode(String dataId, String rgex) {
        if (StringUtils.isEmpty(dataId)) {
            return null;
        }

        // 匹配的模式
        Pattern pattern = Pattern.compile(rgex);
        Matcher m = pattern.matcher(dataId);
        while (m.find()) {
            return m.group(1);
        }
        return null;
    }

输出:8.9

4 进阶

思考:如何捕获多条数据呢?
这个场景在爬虫场景比较多,如提取列表页中图片url地址或者图片名字时候。下面是一个简化例子,大家可以自己改造一下,就能在很多场景中使用了。
目标: 把字符串中2个生日日期提取出来,即8.9 和1.1

 @Test
    public void spliteAppNameTest2() {
        String dataId =  "hello world my name is: DayDayUp. and Zhang's birthday is 8-9. besides, Yang's birthday is 1-1. besides";
        String REGEX = "birthday is (.*)\\.";

        System.out.println(getPatternCode(dataId,REGEX));
    }

输出:

8-9. besides, Yang's birthday is 1-1

这里使用(.*)贪婪匹配,直接匹配了全部字符串。所以输出比较长。

  @Test
    public void spliteAppNameTest2() {
        String dataId = "hello world my name is: DayDayUp. and Zhang's birthday is 8-9. besides, Yang's birthday is 1-1. besides";
        String REGEX = "birthday is (.*?)\\.";

        System.out.println(getPatternCode(dataId,REGEX));
    }

    public static StrBuilder getPatternCode(String dataId, String rgex) {
        if (StringUtils.isEmpty(dataId)) {
            return null;
        }
        if (StringUtils.isEmpty(rgex)) {
            rgex = REGEX;
        }
        // 匹配的模式
        Pattern pattern = Pattern.compile(rgex);
        Matcher m = pattern.matcher(dataId);
        StrBuilder sb = new StrBuilder();
        while (m.find()) {
            sb.append(m.group(1)+"\n");
           // m.appendReplacement(sb,);
           // return m.group();
        }
        return sb;
    }

输出:

8-9
1-1

改动点,
1 使用了 StrBuilder sb = new StrBuilder(); 来保存补获组 sb.append(m.group(1)+“\n”);
2 String REGEX = “birthday is (.*?)\.”;

5 总结

还是python写正则表达式要简单一点,java写起来代码量比较多,也比较复杂。特别是里面\,需要用2个\来表示一个\。刚开始还不能很好适应。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值