jq过滤替换敏感词_敏感词体系搭建实践

最近一直想要学习风控系统相关的知识,在看书的同时,也在网上看看大神们的实操总结,正好看到一篇关于敏感词相关的内容,作者将整个敏感词体系搭建的过程写的很清楚,对于入门来看,可以作为一个很好的实操样例来学习参考,所以在这里分享给大家。

原作者:秃头少女

原文链接:敏感词运营体系搭建全手册

原出处:公众号恶魔宝宝

著作权归作者所有。

商业转载请联系作者授权,非商业转载请注明出处。

如有侵权,请联系本人,立马删除。

基于敏感词的风控策略是所有风控体系中最基础的,内容简单但琐碎,系统涉及从用户发布到用户举报、命中策略到审核处理、用户画像到AI识别等方方面面。
本次系统性的整理总结了工作以来在敏感词运营系统搭建方面的经验和想法,作为自我总结回顾的同时,也希望分享出来避免其他同学在敏感词运营方面少走弯路。
一、产品概述
1.1 产品背景介绍
敏感词系统是搜索和内容类产品的基础风控类系统。本文从词库匹配出发,涉及敏感词添加、命中方式、影响业务和影响用户等多个维度,全面介绍敏感词体系搭建的结构和流程。
1.2 产品功能概述
通过本系统可以过滤基础的文本敏感内容;可以结合业务线灵活掌握敏感词过滤方式,以及触及敏感词的用户。
1.3 名词介绍
词库:同一类别的敏感词所组成的一个大类。本文中有四大词库(红线词库、敏感词库、危险词库),每一个词库中有三级分类。
词过滤:针对搜索业务,对搜索词直接过滤。
结果过滤:针对命中敏感词的结果直接过滤。
二、使用场景
敏感词系统最基本的功能有匹配词库就足够,但是面对越来越多的越来越复杂的产品形态,单一的敏感词系统使用场景的问题基本有以下四类:
场景一:A产品要小规模内测上线,产品中的评论功能需要接入最基本的敏感词控制风险,但是面对运营的词库找不到哪些属于“基本”敏感词;
场景二:B产品被用户反馈有低俗色情内容,但敏感词明明已经添加过了,经检查发现该敏感词只管控了甲业务,新上的乙业务没有添加管控而被用户投诉;
场景三:C产品被老大反馈自己发表的评论消失了,开发查到是命中了敏感词导致找到了运营,但运营认为这个词字面上看确实有问题,可说不出添加依据;
场景四:及时手握大量敏感词,但依旧依靠人工排查来扩充词库,费时费力;
因此,在本系统会尝试解决以上四类问题。
三、产品需求
1. 核心路径
用户:输入/发布–>敏感词检测–>过滤–>结果展示;
运营:发现敏感词–>评估–>添加–>处理被过滤内容。
2. 模块结构

450683ba9abac015b7d14a218f01ea39.png
3. 功能树
系统以词库为基础,将敏感词根据重要程度不同,区分不同类别,如红线类别,敏感类别,危险类别等等,不同类别结合用户维度和地域维度,正则匹配或精确匹配等不同匹配方式,作用于不同业务,产生不同效果。

66d002afec36df4e579cf5dcc7369adc.png
4. 页面结构

b9af4f44a4ad823540d911dc50e689a7.png
5. 原型设计
5.1 策略配置
背景功能:词库和业务结合。控制影响方式(词过滤或结果过滤),控制持续时间,控制状态(生效或者是下线),掌握策略召回的数量,并可将策略召回的内容进行处理。
页面说明:策略管理页可直接配置管控策略。例如在红线词库中,添加二级类别为“低俗色情”,选择该类别下所有的三级类别“all”,选择需要管控的业务如一级业务“搜索”,其下所有二级业务,选择影响方式和持续时间,则达到效果为:
“在搜索下的所有业务,都被红线词库-低俗色情类别敏感词所影响,影响方式为在搜索该词时就被影响,且为永久影响状态”。
策略配置所需要的其他部件添加或者修改则在业务管控和词库管理进行。
原型演示:

b0f6f503d88167cfdeb6ad7cff116362.gif

41a781f4cc200d2155f8c7af7c788ea2.png
5.2 词库管理
背景功能:添加敏感词,控制该词所属词库,并在添加时可看到召回量,抽样评估后得到拦截准确率。
页面说明:敏感词添加可直接批量添加多词,并初步依靠字面意义判断所属词库,然后评估召回量和随机样本,给出是否需要生效,以及确认所属词库。
随机样本抽取数量和方式可在“样本设置”进行,命中准确率评估可在“敏感词评估”进行。
原型演示:

93838914fb284217d61ddc686991279f.gif
5.3 用户配置
背景功能:将用户与敏感词、业务、地域三种维度结合。
页面说明:敏命中策略指“策略配置”页的策略,可看到被该策略召回的用户数,点击“处理”可跳转至“内容处理”页面进行处理。
原型演示:

5c0bbc8ce700e5db8e73763488667874.gif
5.4 内容处理
背景功能:对命中策略的业务或用户做处理。
页面说明:时间指该策略生效的时间,可在该页面完成增量和存量内容的处理。
原型演示:

466608e2ae78aaa047700b0b70b150dd.gif
5.5 数据统计
背景功能:从策略维度、词库维度、用户维度和处理维度做出数据统计。
页面说明:报表形式给出
原型演示:

44fc1e3805533c76f25afab2d58f51e4.gif
四、未来规划
互联网面前人人平等,因此人们可以非常轻易的暴露自己黑暗的一面。
为了避免其他用户看到、接触到、受到这些黑暗信息的影响,敏感词系统应运而生。这不仅承担着为产品过滤基础风险的功能,同时作为基础系统承担着为公众提供一个天朗气清的网络环境的作用,因此敏感词系统也需要不断的优化和改进:
利用AI技术增强语义识别功能,扩充添加渠道,及时发现及时处理;
敏感词系统和舆情系统结合,成为负面舆情控制和处理的强大工具。
相关资源:jdk-8u281-windows-x64.exe
已标记关键词 清除标记
表情包
插入表情
评论将由博主筛选后显示,对所有人可见 | 还能输入1000个字符
【为什么还需要学习C++?】 你是否接触很多语言,但从来没有了解过编程语言的本质? 你是否想成为一名资深开发人员,想开发别人做不了的高性能程序? 你是否经常想要窥探大型企业级开发工程的思路,但苦于没有基础只能望洋兴叹?   那么C++就是你个人能力提升,职业之路进阶的不二之选。 【课程特色】 1.课程共19大章节,239课时内容,涵盖数据结构、函数、类、指针、标准库全部知识体系。 2.带你从知识与思想的层面从0构建C++知识框架,分析大型项目实践思路,为你打下坚实的基础。 3.李宁老师结合4大国外顶级C++著作的精华为大家推出的《征服C++11》课程。 【学完后我将达到什么水平?】 1.对C++的各个知识能够熟练配置、开发、部署; 2.吊打一切关于C++的笔试面试题; 3.面向物联网的“嵌入式”和面向大型化的“分布式”开发,掌握职业钥匙,把握行业先机。 【面向人群】 1.希望一站式快速入门的C++初学者; 2.希望快速学习 C++、掌握编程要义、修炼内功的开发者; 3.有志于挑战更高级的开发项目,成为资深开发的工程师。 【课程设计】 本课程包含3大模块 基础篇 本篇主要讲解c++的基础概念,包含数据类型、运算符等基本语法,数组、指针、字符串等基本词法,循环、函数、类等基本句法等。 进阶篇 本篇主要讲解编程中常用的一些技能,包含类的高级技术、类的继承、编译链接和命名空间等。 提升篇: 本篇可以帮助学员更加高效的进行c++开发,其中包含类型转换、文件操作、异常处理、代码重用等内容。
©️2020 CSDN 皮肤主题: 设计师:weixin_39958559 返回首页