通过人工智能实现内容智能审核及在世界杯的实战-CSDN博客

当前传媒行业（包含电视台、电台、报业、出版、网络公司等）已从“原创内容+单向播出发行”的传统业务模式转变为融合媒体业务模式，从采集端到发布端的全业务链条里充分融入了互联网双向交互特征，也从原来单向传播模式变为多渠道双向互动模式。融合媒体平台的内容不再仅是由专业从业人员产生，通过互联网渠道会产生海量UGC（用户生产内容），包括用户上传音视频素材、用户注册信息、用户评论互动信息等。

作为党和国家的宣传喉舌，在自有平台保障发布内容合规性是传媒行业各单位最重要的工作内容之一。以前传媒都是自制内容，素材来源单一可控、成品内容产量小、线性播出时效性要求不高，依靠有经验有责任心的员工进行审核就能够有效保障内容合规性。但在融合媒体时代，互联网海量内容注入，审核业务范围扩大，风险类型变多，发布时效性要求很高……各方面都对内容合规性的把控带来更大的挑战。

一、融合媒体业务内容审核需求分析

在融合媒体业务中，互联网用户产生内容需要重点审核。一方面要重视内容审核的准确率，保证发布内容合规性；另一方面也要保证内容发布的时效性，尽量降低用户体验的损耗，让用户的合法内容能够正常发布显示，保证用户参与互动流畅性，与互联网媒体公司争夺用户，持续提升媒体影响力。

内容审核业务范围

除了传统媒体时代对原创内容播出前进行严格三审制度保障内容合规性外，新增了更多需要审核的业务模块，例如包括：

（1）内容汇聚模块：

互联网草根/半职业用户创作上传的媒体内容；
第三方专业机构提供的媒体内容；
互联网抓取的第三方平台内容；

（2）用户中心模块：

用户注册头像和昵称；
用户个性签名；

（3）互动中心模块：

用户直播互动（含购物直播等）；
用户评论、弹幕、私信留言；

不同的业务模块互动属性不同，产生的内容类型也不相同，通过下表总结可见，融合媒体业务对视频、音频、图片和文字都有合规性审核需求。

	视频审核	音频审核	图片审核	文字审核
用户创作上传媒体内容	️	️	️	️
第三方专业机构提供内容	️	️
互联网抓取内容	️	️	️	️
用户注册头像和昵称			️	️
用户个性签名				️
用户直播互动	️	️
用户评论、弹幕、私信留言				️

内容违规风险检测范围

互联网用户产生内容的违规风险相比较媒体企业原创内容会有更多不可控因素，国家网信办、广电总局、文化部也多次下文要求强化对互联网内容的监管力度。笔者针对相关监管政策要求，整理出内容违规风险检测范围：

敏感人物：包含落马官员、异见人士、问题明星等，以及其相关言论和政治主张；
涉黄：包含色情、情色、裸露、挑逗等涉黄内容；
低俗：包含抽烟、纹身等不雅动作和不雅装扮；
涉暴：包含打架斗殴、枪支刀械、血腥、爆炸等暴力场景；
涉政：包含反动组织旗帜、反动人物、反动言论、反动地图、反动地名等涉政场景；
广告：包含通过文字、图片、二维码等进行企业、产品、公众号宣传的行为；

互联网海量内容审核面临的挑战

依靠传统人工审核方式来应对互联网海量内容的审核需求，会面临巨大的挑战，笔者从成本、效率、准确性三方面进行论述。

（1）审核成本高

面对上节列举出的业务审核范围，为了尽可能保证内容发布的时效性，至少需要多个审核岗位，每个岗位至少2班轮换，审核人力成本每年评估至少需要50万以上。

（2）审核效率低

人工审核的效率不可能达到实时，而且从成本考虑也很难施行7*24小时值守审核及时响应，会让用户提交内容到看到内容之间形成较大的时延，影响使用体验。按照某省级网络电视为例，在重要活动期间增加审核人力规模，文字评论发布延时能尽量做到3分钟以内，文字弹幕（挑选发布）的发布延时能够缩短到1分钟，视频类内容的审核延时高于10分钟；而在日常运营状态下，文字审核延时就会高于10分钟，在夜间无人值守时甚至会关闭评论等功能。

（3）审核准确性不可控

审核人员知识水平参差不齐，对审核内容的理解也会不同，特别是一些敏感人物很难通过人眼能准确识别，因此对审核结果的准确率不能有效控制，漏检、错检的概率较大。当遇到一些不法分子采用多种狡猾的变异手段恶意隐藏违规内容来对抗审核时，更是为审核人员增添了很大的工作难度。

二、人工智能多模态审核是解决业务痛点可行之道

为了解决融合媒体业务海量互联网内容产生的审核困境，需要引入人工智能作为辅助提供智能审核能力，采用多模态（视频、音频、图片、文字）分析技术，对互联网用户产生内容进行全面风险检测，实现低成本、高效率、高精准度的内容合规性保障。

需要强调的是，内容合规性审核是传媒企业最重要的工作内容之一，如此重要的岗位人工智能并不能完全替代人工工作，而是通过大规模并行计算极大降低人工工作量，当计算认为有不可准确判定的结果时，需要人工进行二次判断。

内容智能审核应具备的技术特征

并不是具备人工智能基础能力就能够胜任智能审核工作，为了保证低成本、高效率和高精准度，智能审核服务应具备以下特点：

a、多模态计算

能够对融合媒体业务产生的音视频直播流、音视频点播文件、图片、文字进行多模态并行计算。特别是视频内容，不仅是拆分为图像和音频进行处理，还需要对图像进行OCR识别，对图像中出现的铭牌、标语、字幕等文字内容进行处理，最终归纳到对图像和自然语言的合规性检测。

融合媒体多模态计算的技术逻辑如下图所示：

通过多模态计算把内容归纳到图像与文字的合规性后，需要对图像和自然语言进行全面风险检测，包括敏感人物、涉黄、低俗、涉暴、涉政和广告的检测。

对文本检测的通常技术手段是采用关键词过滤技术，即把敏感人物、涉黄等各种风险类型可能出现的词语设置为关键词，在用户提交内容中进行全文关键词匹配，如果命中就进行告警。这种简单的过滤技术会有较高的误报率和漏检率：其一是不法分子通过文字变异手段就能很轻松绕开关键词匹配（例如“一个人看hn世界杯56好寂66寞9啊谁可以陪我一起”）；其二词语在不同语境会表达出不同的含义，不能以偏概全（例如“64个学生”）；其三一句话相邻词语之间的连接也容易造成误报（例如“48口交换机”）；其四对于非法广告，无法通过关键词列举进行穷尽过滤（例如这条微信号推广广告“涨停早知道kkok八四特斯拉落户上海”）。

文本审核最高效最精准的技术是基于自然语言处理（NLP）。通过NLP进行语言情感分析、多语言分词、上下文逻辑检测、语义理解等技术手段，辅以海量文本特征库，就能够智能分析出文字表达的真实含义，避免上述4种情况带来的误报和错报，即使在文本恶意变异情况下都能够有效检测，实现毫秒级过滤和高达99%的准确率，真实帮助审核人员减小工作量。

b、丰富大数据特征库，并能持续迭代更新

基于人工智能的智能审核技术，除了具有先进算法外，还需要具备大数据特征库，通过长时间样本积累和训练，才能够保证识别准确率维持在最高水平。

阿里云的内容智能审核服务在敏感人物、涉黄、低俗、涉政、涉暴和广告方向都有着海量的样本特征库，这些特征库是常年服务于淘宝、天猫、支付宝等核心业务积累下来的，并在实际运营过程中不断更新，样本数量和丰富度基本已覆盖互联网能够遇见的场景。

阿里云内容智能审核具备审核结果回流自学习的能力，对算法不确认依靠人工决策的结果回流到后台，后台自动进行样本分析、打标和训练，对审核模型进行迭代优化，形成企业自己专属的特征库和个性化策略，维持审核准确率在99%以上。

c、云计算能力支撑审核规模弹性伸缩

融合媒体业务规模是弹性变化的，内容智能审核的业务量也需要有弹性伸缩，业务量大时能扩大并发审核能力，业务量小时能快速释放空闲资源，这样的特点需要基于云计算能力。基于云计算的智能审核既能够保证业务量频繁变化下的审核效率，又能够有效降低审核成本。

内容智能审核服务形态

面向传媒行业业务需求，基于适配传媒业务形态、按需选择接入、降低对接成本的原则，阿里云针对融合媒体内容智能审核多模态算法和样本库进行能力封装，对外提供了视频、音频、图像、文字四种能力接口，并以松耦合方式提供服务。

传媒企业融合媒体业务在任何功能模块对智能审核有需求，都可以通过接口调用方式快速接入。服务自动根据业务量规模进行弹性扩展，确保以最高效率返回结果，让企业在任意规模用户内容并发输入能够有最快的效率智能判断并返回结果。对于底层内容智能计算逻辑、算法的迭代升级、样本库的积累，企业都不用再投入成本。

阿里云内容智能审核服务形态如下图所示。

三、世界杯期间实际应用实践

阿里云智能审核服务在世界杯得到实战的检验，与客户通过近2周的相互配合联调测试，获得了最优算法模型和个性化策略配置。世界杯期间，阿里云智能审核服务帮助客户实现平台自有用户产生内容的全量检查防护，包括上百万条用户评论的实时审核。

实际使用效果非常理想，阿里云智能审核服务帮助客户节约了90%的人工审核成本，如此大规模的内容审核业务量只需要1个岗位2名人员，负责对算法疑似内容进行人工复审，复查发布内容是否有遗漏审核的风险，及时更新样本库。实践证明阿里云智能内容审核能力仅偶尔在变异广告场景下出现过漏报情况，在涉政、涉黄、涉暴、低俗等审核范围做到了100%内容合规。

在时效性上，阿里云内容智能审核能够远优于人工审核，对图片和文本的审核能够在毫秒级完成，正常互动的用户在终端感知不到有审核延时。