敏感词过滤算法：前缀树算法

最新推荐文章于 2025-03-16 09:00:00 发布

诸葛财财

最新推荐文章于 2025-03-16 09:00:00 发布

阅读量1.2w

点赞数 25

分类专栏：实用算法文章标签：敏感词过滤前缀树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37410328/article/details/83183673

版权

背景

平时我们在逛贴吧、牛客网的时候，我们经常可以看到一些形如 “***”的符号，通过上下文，我们也可以很容易猜到这些词原来是骂人的话，只是被系统和谐了。那么这是如何实现的呢？作为普通人，我们最先想到的一种办法就是把所有敏感串存入一个列表中，然后用户每发一条内容后台就把该内容与敏感串列表的每一项进行匹配，然后把匹配的字符进行和谐。显然这样的效率是很低的。非常影响性能，那么我们有没有其他的算法呢？这就是我这篇博文打算介绍的。

原理讲解

1.首先建立个敏感词前缀树

根节点为空

2.准备好待处理字符串： 哈哈大王八子大猪蹄子哦 ，声明三个指针，分别指向前缀树的根节点以及待处理字符串的开始字符

3.position指向的字符与根节点的所有子节点进行匹配，不匹配，position 和 begin分别指向待处理字符串的下一个字符，tempNode依旧指向根节点

4.依旧不匹配，position 和begin继续向前走一位，指向“

最低0.47元/天解锁文章

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。