导言
将人工智能(AI, Artificial Intelligence)技术,用于审核互联网上用户生产内容(UGC,User Generated Content)日益广泛,能够提高人工审核的效率。AI审核既要考虑单个内容的违规情况,也要延伸到发布该内容的用户维度上。本文将分享智能化审核在爱奇艺审核业务中的实践和应用:对用户的安全性进行建模和评级,同时结合AI内容安全检测,实现更智能化、更高效的UGC审核策略。
背景
互联网内容安全审核,即对用户生产的视频、音频、图片、文字等内容进行审查,合规的内容才能发布,以净化网络环境。
目前业界采用的审核策略是AI+人工。其中AI策略主要是采用深度学习模型,从图片、文本、音频等内容维度,智能识别其中的涉政、涉黄、暴恐等违规信息,即AI内容安全检测。图1是当前主流的智能化审核解决方案。
图1:主流的智能化审核解决方案
然而,搭建一套AI内容安全检测服务的成本较高:一方面,针对涉黄、暴恐等不同的违规类型,需要大量、分类别、高质量的标注数据,主要是人工标注;另一方面,为达到可用的准确率,普遍采用深度模型,训练和推理都依赖昂贵的GPU资源。
业界也考虑到,内容的安全不应只在单个内容上,还需要结合更高的维度,如上传内容的用户,主要有两个形式:1,建立用户黑、白名单;2,基于用户历史数据,定义运营规则,给用户打分。这种方案存在准确度低、误判高的问题。
为了优化上述问题,本文借鉴用户风控的思想,提出了用户安全评级:采用机器学习算法,对用户的信誉度、安全性进行建模,能够预测用户的未来表现。之后,再结合AI内容安全检测和人工审核,制定灵活的审核策略,实现了智能化审核,并在爱奇艺审核业务中落地。
UGC智能化审核
方案设计
本文提出的UGC智能化审核方案,主要包含两个部分:
用户安全评级。评估用户的安全性,一方面,为了可量化、更客观,主要从用户上传内容的通过率、高危率等维度进行衡量。另一方面,为了具有前瞻性,采用AI算法,对其进行预测。
智能化审核策略。用户上传一条内容后,将优先调用其安全评级,对高等级用户的内容,可以不调用AI内容安全检测服务。并且可以影响审核优先级,用户等级越高,审核的耗时越短。
因此