敏感词过滤的实现

最新推荐文章于 2024-05-03 08:00:00 发布

skdjq

最新推荐文章于 2024-05-03 08:00:00 发布

阅读量977

点赞数

分类专栏：项目文章标签：数据结构字符串 java

本文链接：https://blog.csdn.net/skdjq666/article/details/111497846

版权

项目专栏收录该内容

1 篇文章 0 订阅

订阅专栏

敏感词过滤

更多内容请访问我的个人站点博客。

最近在做一个项目的过程中正好遇到了敏感词过滤这一功能，由于这个功能应用广泛，就记录下来以便日后复习。

设计敏感词过滤可以通过Trie树来实现，即我们所说的前缀树/字典树。

Trie树

Trie树也称为前缀树、字典树，最大的特点就是共享字符串的公共前缀来达到节省空间的目的了。

Trie树的根节点不存任何数据，每整个个分支代表一个完整的字符串。

Trie 树的本质，就是利用字符串之间的公共前缀，将重复的前缀合并在一起。

举个简单的例子来说明一下。

我们有 6 个字符串，它们分别是：how，hi，her，hello，so，see。我们希望在里面多次查找某个字符串是否存在。如果每次查找，都是拿要查找的字符串跟这 6 个字符串依次进行字符串匹配，那效率就比较低，有没有更高效的方法呢？

这个时候，我们就可以先对这 6 个字符串做一下预处理，组织成 Trie 树的结构，之后每次查找，都是在 Trie 树中进行匹配查找。最后构造出来的就是下面这个图中的样子。

Trie树的应用

Trie树最大的特点就是利用了字符串的公共前缀，当我们在搜索框输入关键词时，搜索框会自动帮我们列举出相关结果：

在设计敏感词过滤的过程中，我们可以这样定义Trie树：

图中的红叉表示标记到这个字符，从root到此字符所经过的字符串是敏感词。

把所有敏感词存入Trie树中，设置三个指针：p1、p2、p3。

其中：p1指向Trie树的根节点，p2和p3指向待过滤的字符数组。

过滤过程

过滤过程为：

p1找root下一层有没有与p2指向相同的字符，若没有，p2和p3都向后移动；若有，p1指向那个字符对应的节点，p2不动，p3向后移动，然后重复上述过程。
如果p1指向了带标记的节点，那么将p2到p3中间的字符串统一用过滤词如***代替并存入结果数组中，p2和p3都移动到 p3 + 1的位置；如果没有指向带标记的节点，p2++，p3 == p2。当p3 == 数组长度时，将剩余字符加入结果数组中。

复杂度分析

如果敏感词的长度为 m，则每个敏感词的查找时间复杂度是 O(m)，字符串的长度为 n，我们需要遍历 n 遍，所以敏感词查找这个过程的时间复杂度是 O(n * m)。

如果有 t 个敏感词的话，构建 trie 树的时间复杂度是 O(t * m)。

代码实现

这里构建Trie树我们使用HashMap实现，因为一个节点的字节点个数未知，采用 HashMap 可以动态拓展，而且可以在 O(1) 复杂度内判断某个子节点是否存在。

@Component
public class SensitiveFilter {

    private static final Logger logger = LoggerFactory.getLogger(SensitiveFilter.class);

    private static final String REPLACEMENT = "***";

    private TrieNode rootNode = new TrieNode();

    private class TrieNode {

        // 关键词结束标识
        private boolean isKeywordEnd = false;

        private Map<Character, TrieNode> subNodes = new HashMap<>();

        public boolean isKeywordEnd() {
            return isKeywordEnd;
        }

        public void setKeywordEnd(boolean keywordEnd) {
            isKeywordEnd = keywordEnd;
        }

        // 添加子节点
        public void addSubNode(Character c, TrieNode node) {
            subNodes.put(c, node);
        }

        // 获取子节点
        public TrieNode getSubNode(Character c) {
            return subNodes.get(c);
        }
    }


    @PostConstruct
    public void init()  {
        try (
            InputStream is = this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");
            BufferedReader reader = new BufferedReader(new InputStreamReader(is));
        ) {
            String keyword;
            while ((keyword = reader.readLine()) != null) {
                // 添加到前缀树
                this.addKeyword(keyword);
            }
        } catch (IOException e) {
            logger.error("加载敏感词文件失败: " + e.getMessage());
        }
    }

    private void addKeyword(String keyword) {
        TrieNode tmp = rootNode;
        for(int i = 0; i < keyword.length(); i++) {
            char c = keyword.charAt(i);
            TrieNode subNode = tmp.getSubNode(c);
            if(subNode == null) {
                subNode = new TrieNode();
                tmp.addSubNode(c, subNode);
            }
            tmp = subNode;
            if(i == keyword.length() - 1) {
                tmp.setKeywordEnd(true);
            }
        }
    }


    /**
* 返回过滤后的文本
* */
    public String filter(String text) {
        if(StringUtils.isBlank(text)) {
            return null;
        }

        TrieNode tmp = rootNode;
        int begin = 0;
        int position = 0;

        StringBuilder sb = new StringBuilder();
        while(position < text.length()) {
            char c = text.charAt(position);
            // 忽略特殊符号
            if(isSymbol(c)) {
                if(tmp == rootNode) {
                    sb.append(c);
                    begin++;
                }
                position++;
                continue;
            }
            tmp = tmp.getSubNode(c);
            if(tmp == null) {
                // 以begin开头的字符串不是敏感词
                sb.append(text.charAt(begin));
                begin++;
                position = begin;
                tmp = rootNode;
            } else if (tmp.isKeywordEnd()) {
                sb.append(REPLACEMENT);
                position++;
                begin = position;
            } else {
                position++;
            }
        }
        // 将剩下的字符串加入结果中
        sb.append(text.substring(begin));

        return sb.toString();
    }


    // 判断是否为符号
    // 0x2E80 ~ 0x9FFF 是东亚文字范围
    private boolean isSymbol(Character c) {
        return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF);
    }
}

skdjq

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
敏感词过滤的实现

敏感词过滤最近在做一个项目的过程中正好遇到了敏感词过滤这一功能，由于这个功能应用广泛，就记录下来以便日后复习。设计敏感词过滤可以通过Trie树来实现，即我们所说的前缀树/字典树。Trie树Trie树也称为前缀树、字典树，最大的特点就是共享字符串的公共前缀来达到节省空间的目的了。Trie树的根节点不存任何数据，每整个个分支代表一个完整的字符串。Trie 树的本质，就是利用字符串之间的公共前缀，将重复的前缀合并在一起。举个简单的例子来说明一下。我们有 6 个字符串，它们分别是：how，hi，he
复制链接

扫一扫