谛听安全｜内容审核系统的搭建设计思路

最新推荐文章于 2024-11-17 14:12:43 发布

北街未雨

最新推荐文章于 2024-11-17 14:12:43 发布

阅读量347

点赞数

文章标签：大数据

原文链接：https://blog.csdn.net/weixin_60204527/article/details/125742365

版权

对于信息产品和内容产品，内容评审是必不可少的环节之一。审核既是产品风险的控制手段，又是维护网络生态环境的重要环节。本文阐述了构建内容审核系统的设计思路和程序，希望能对大家有所帮助。

如果运营同学通过简单的流程梳理，不难发现所涉及的对象包括发送用户、接收用户和内容审核（管理员等）。在设计时有两个方向：一方面简单地考虑对象的处理机制。在另一方面，考虑关联对象被连接以说明产品设计。

用户的信息可以分类为年龄，性别，地理位置，设备，IP地址，使用时间，交易信息，用户发布等。以上信息均属于用户的数据，用户数据是用户分析的基础，有些数据能在一定程度上反映用户信用。

而用户评分系统是对用户的基础数据进行分析和数字化，可以通过权重累加，也可以通过总分相加。比如：发布过一个企业违规内容的用户，则分值降低等。但是仅仅通过分值进行系统分析可能不够，因为某些分值高的用户还是有可能发布不好的内容。

因此在设计搭建时，需要再学习其他管理策略研究处理，比如高中低风险以及用户提供制度、黑白名单制度等。例如，在检测到用户发布非法内容后，则将与评分值解耦，定义为高风险用户，该用户将被多次放入手动审计机制中。

说完了上述内容，简单讲一下敏感词的策略。以下将简单概述一下内容审核中不同的敏感词策略，常见有：

1. 关键词：

禁止关键词：一经识别即拦截。疑似关键词：可以支持更多策略，可以设置阈值。

处理方式有涉嫌送审、未送审拦截、黑名单拦截。设置阈值是指设置一定的数量，如果检测到超过一定次数，就会进行相应的处理。

2. 黑白名单：顾名思义，黑名单数据一律通过拦截、白名单企业一律不检测系统拦截。

3. 用户频率: 主要根据用户发送的方式和次数计算用户频率，形成用户频率统计数据。根据用户的频率可以处理: 发送到复查、直接截取、截取加黑。

4. 白指纹：根据指纹的唯一性质，为内容文件通过消息摘要算法生成MD5，配置为黑名单，一旦发现相同的MD5被拦截。白名单也是同理策略。

对于信息产品的各个企业来说，有时审计的内容不能100%准确，所以用户可以通过以上各方式来处理。国内优质人工智能数据服务平台谛听安全，凭借数十年的产品内容经验，积累了更全面的审计维度，从平台的内容安全与运营角度出发，为不同行业的用户提高平台环境与运营活跃度，并且具有行业领先的非法过滤能力，从而为用户提供更可靠、更高质量的服务质量与速度。
————————————————

原文链接：https://blog.csdn.net/weixin_60204527/article/details/125742365

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。