敏感词过滤是随着互联网社区发展,一种阻止网络犯罪和网络暴力的技术手段。通过对可能存在犯罪或网络暴力,对可能的关键词进行有针对性的筛查和屏蔽。
很多时候我们能够防患于未然,把后果严重的犯罪行为扼杀于萌芽之中。随着互联网社区和UGC应用的不断发展和变化,敏感词过滤系统(尤其是针对传奇、SLG类型的游戏黑产广告话术)也经历了以下多种过滤方法:
第一、敏感词替换
敏感词替换是较早出现的一种敏感词过滤方式,即系统不会在用户端进行敏感词过滤和校验,而是把这个工作放在数据入库之前完成,在数据写入数据库之前,系统根据已经制定的规则把所有敏感词替换为设定好的符号或文字,这个过程是不可逆的。
这种技术手段对于阻止网络暴力成效显著,用户在阅读其他人的发布信息时,不会再看到那些刺眼的侮辱性的字眼,但又不会太过于破坏发布者的本意。同时,它不会对用户的阅读造成很大的干扰和障碍,尤其是在聊天室或群组等场景中。
第二、敏感词屏蔽,它是指直接去除发布信息中的敏感词,然后写入数据库。这种方法可以最大限度地避免对普通用户的隐性骚扰,但代价是发布信息的可读性可能会下降,甚至影响阅读体验。
第三、敏感词识别,并进行处置
最后一种用户端阻止发布是指系统在用户发布信息时,本地或服务器端的信息,一旦发现用户发布的信息符合敏感词过滤条件,即阻止用户发布操作并返回提示信息,提示用户有敏感词不符合发布要求,并要求用户修改发布的信息。这种过滤方法可以最大限度地降低系统本身的安全风险,显著降低人工审核的成本,在用户输入昵称和简单介绍时效果最好。
对于传奇游戏内比较容易造成不良影响的灰黑产敏感词的处理方式除了人工的审查之外还有具备智能化的谛听安全机器审查,两者结合可以最大限度的节省时间与人力成本,并将覆盖率与精准度提升到最高。