在html文本中确定字符串的位置

思想也是借鉴了kmp算法,但是没有它的部分匹配表,所以性能上稍差些,主要是目标字符串中含有html标签,

将源字符串向右滑动,挨个去匹配,当匹配到时,在选取第二个字符串往后匹配,

由于目标字符串中含有标签,所以每次匹配时,遇到标签需要

/**
     * 匹配字符串在文本中的位置(目标字符串是html)
     *
     * @param source
     * @param target
     */
    public static List<Integer> kmpFuzzyMatching(String source, String target) {
        char[] sourceChar = source.toCharArray();
        char[] targetChar = target.toCharArray();

        int temp = 0;
        List<Integer> pointList = new ArrayList<>();
        for (int i = 0; i < sourceChar.length; i++) {
            for (int j = temp; j < target.length(); j++) {
                //是不是标签
                if (targetChar[j] == '<') {
                    String tempStr = target.substring(j);
                    int k = tempStr.indexOf(">") + j;
                    if (k > 0) {
                        j = k;
                        continue;
                    }
                }
                //匹配到了
                if (sourceChar[i] == targetChar[j]) {
                    pointList.add(j);
                    temp = j + 1;
                    break;
                } else if (targetChar[j] == '\n'
                        || targetChar[j] == ' ') {
                    continue;
                } else {
                    //下一个字符是不是标签
                    if (targetChar[j + 1] == '<') {
                        String tempStr = target.substring(j);
                        int k = tempStr.indexOf(">") + j;
                        if (k > 0) {
                            j = k;
                            continue;
                        }
                    } else {
                        temp = j - i + 1;
                        i = -1;
                        pointList.clear();
                        break;
                    }
                }
            }
            if (pointList.size() == source.length()) {
                break;
            }
        }

        if (pointList.size() == source.length()) {
            if (source.length() == 1) {
                return Arrays.asList(pointList.get(0), pointList.get(0) + 1);
            }
            return Arrays.asList(pointList.get(0), pointList.get(pointList.size() - 1) + 1);
        }
        return Arrays.asList(-1, -1);
    }

对于结果,返回起点与终点,如果没有匹配到,就返回-1,-1。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值