1、写作背景
最近遇到一个需求是支持识别直播集合落地页用于广告投放,其实就是加一个规则配置。这里想到了自己经常联调的风控同学违禁词识别场景。和某明星塌房需要拦截关键词一毛一样。在联调之余有幸请教了风控的几位同学,再此学习了一下风控系统中敏感词校验的设计方案。
本文只讨论方案,不讨论技术细节。
本文只讨论方案,不讨论技术细节。
本文只讨论方案,不讨论技术细节。
方案要解决的关键点是
- 实时生效。场景:张三塌房,需要对增量的文案流量过滤张三关键词。
- 大量的关键词内存存储方案。场景:业务需求增多,关键词自然增多,很常见。
- 快速匹配违禁词。场景:用户多,词多,自然需求
2、实现思路
2.1 HelloWord级别的敏感词校验
我们以下面的DEMO为例,从0开始**,一步一步的质疑这个方案,从而实现局部最优**。
DEMO逻辑为读取数据库全量违禁词存储到内存中,流量来了以后for循环处理,校验是否命中违禁词。
package cbeann;
public class App {
public static List<String> forbiddenWordCache = cacheInit(