基于有限状态机实现敏感词替换(Java)

问题描述

给你一串字符串,与一组敏感词。将这个字符串中的敏感词全都替换成*号

例:

字符串:"你好你好呀傻逼草泥马情电影情色1234草尼阿三大苏打草泥马1都31321312你的十大恶趣味去"

敏感词:"草泥马" ,"情色","傻逼","草泥"

经过替换后: "你好你好呀****马情电影**1234**阿三大苏打**马1都31321312你的十大恶趣味去"

具体实现:

存储方式:

        先将敏感词通过map以二叉树的方式存储起来 key部分位敏感词的字符,value为map。

例:

        先创建一个主map(root) 这个主map存储敏感词的第一个字符,再创建一个状态map(node) 此map相当于一个指针。刚开始node等于root,然后遍历敏感词组,再根据敏感词以字符遍历,通过判断node是否包含这个字符,若包含那么node会等于它下一个map,若不包含,那么创建一个新的map,此时node添加key部分为当前遍历的字符,value部分为创建的新map,之后再通过node 等于新创建的字符,此时node将一直添加,直到这个敏感词遍历结束为止(因为只要加了一次,那么它将一直加下去)。遍历完此敏感词后,node添加'\t'作为结束符, node重新回到root那里,再重新遍历新的敏感词,直到结束为止。

检查替换方式

遍历所要替换的字符串,遍历的时候同时遍历存储敏感词的map,按字符一个一个遍历。定义一个int类型的变量length,每成功匹配到一个字符则length+1并且遍历下一个字符,状态map指向当前字符的下一个map,若碰到'\t'结束,此时根据length的长度来替换检查字符串,从i - length+1到i+1的位置都变成* ,此时i从i+1开始遍历。若下个node的key与下一个字符不匹配,那么i回到i-1的位置重新开始匹配。

代码实现

存储敏感词

public static Map<Character, Map> get(List<String> list) {
        Map<Character, Map> root = new HashMap<>();//头,不要进行操作,只能给node赋值
        Map<Character, Map> node = root;//指针,操作的指针
        for (String str : list) {
            node = root;//每遍历一个敏感词结束后node节点回到root节点,地址,对地址操作
            for (int i = 0; i < str.length(); i++) {
                if (!node.containsKey(str.charAt(i))) {//判断当前节点是否存在字符,不存在则加进去然后node指向下一个空节点
                    Map<Character, Map> newMap = new HashMap<>();//创建一个新节点
                    node.put(str.charAt(i), newMap);//node加入字符
                    node = newMap;//node指向新节点,因为只要加了一次就要一直加
                } else {//如果存在
                    node = node.get(str.charAt(i));//node指向它下一个节点
                }
            }
            node.put('\t', null);//执行完后node都为空,加入\t结束
        }
        return root;//返回根节点,根节点都存储着每个敏感词的第一个字符
    }

查询替换

    public static String matchingString(String str, Map<Character, Map> map) {
        StringBuilder str1 = new StringBuilder(str);//转换字符串
        Map<Character, Map> node;//状态map
        node = map;
        int length = 0;//计算敏感词的长度
        for (int i = 0; i < str1.length(); i++) {//遍历字符串
            //判断状态map是否包字符串的第一个字符
            if (node.containsKey(str1.charAt(i))) {//包含
                node = node.get(str1.charAt(i));//状态node指向下一个map
                length++;//敏感词长度+1
                //判断下一个map的key为'\t'
                if (node.containsKey('\t')) {//若果是 开始替换
                    for (int j = i - length+1; j < i+1; j++) {//从i - length+1到i+1的位置都替换为*
                        str1.deleteCharAt(j);
                        str1.insert(j,'*');
                    }
                    i = i+1;//i重新从i+1开始遍历
                    length = 0;//敏感词长度变为0
                    node = map;//状态map重新变为主map
                }
                try {//如果此时是最后一个字符
                    //判断下一个敏感词的key不包含下一个字符
                    if (node.containsKey(str1.charAt(i+1))){//如果是继续循环遍历
                        continue;
                    }else{//如果不是
                        i = i-1;//回到上一个字符开始遍历
                    }
                }catch (Exception e){
                    break;//结束
                }
            }else{//如果第一个node就不包含第一个字符,继续遍历
                continue;
            }
        }
        return str1.toString();
    }

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值