深圳云栖大会人工智能专场：探索视频+AI，玩转智能视频应用

摘要：在人工智能时代，AI技术是如何在各行业和领域真正的发挥应用和商业价值，带来产业变革才是关键。在3月28日深圳云栖大会的人工智能专场中，阿里云视频服务技术专家邹娟将带领大家探索熟悉的视频场景中，AI技术如何应用落地，解决实际业务场景中的问题。

众所周知，全民视频时代已经来临，用户的注意力已经从传统的文字、图片向视频转移，相信绝大部分用户的手机中都会有几个点播、直播、短视频的APP。据网络公开数据报告显示，互联网流量70%以上来自视频，未来这个数据将超过90%。

而在人工智能时代，AI技术是如何在各行业和领域真正的发挥应用和商业价值，带来产业变革才是关键。在3月28日深圳云栖大会的人工智能专场中，阿里云视频服务技术专家邹娟将带领大家探索熟悉的视频场景中，AI技术如何应用落地，解决实际业务场景中的问题。

纵观整个视频生命周期，包括视频采集、视频的生产制作、视频播出和被广大的用户所体验这几个环节。实际上在这个过程中，整个视频行业发生了很大的变化，在每一个阶段都从非常专业的参与者转向大众普适的参与。

从采集阶段，最开始用专业的摄像机、录像机进行视频采集，转向如今的每个人都是自媒体产生者，用手机来拍摄。在制作阶段，从重量级的非线性编辑软件，到现在短视频APP都标配的特效、滤镜、美颜，都能够在手机端进行基本的视频制作。在播出领域，最开始电视台必须得有一个节目单，到现在用户可以在网站上按需播放点播视频，用手机实现个性化的搜索和观看。在体验这一环，用户从最原始的有线电视同轴电缆单项传输的观看，到现在我们可以去交互、评论、点赞、弹幕等等互动。所以，我们可以看出，从整个视频生命周期中，参与者是发生了巨大的变化，加入视频领域的应用也越来越多。

从下图可以看出，视频和AI的结合已经贯穿了视频生命周期的每一个阶段。

那么，AI能为视频行业带来什么呢？

第一，提升生产效率

AI和采集生产环节结合，是能够有效提高视频生产制作的效率的。传统的编辑是人来做的，当AI和视频采集生产环节结合，我们可以引入智能编辑技术，快速生产视频。天下武功，唯快不破，应用在视频领域也是一样的。设想我们很快的生产视频，第一时间发布到网上，就有机会获得更多的流量。

第二，规避监管风险

在视频中引入人工智能审核技术，可以缩短视频发布周期，减少了人工审核的干预，并且可以更高效、准确的规避监管风险。

第三，释放人力降低成本

因为前两个阶段中，机器和算法做了很多替代人的操作，所以释放人力，并且可以带来成本的降低。

基于达摩院的AI算法，结合视频云团队多年在音视频技术领域的积累，阿里云构建了视频AI能力——视网膜，并将产品功能划分为审核、识别、理解、搜索四个模块。下图中的能力，其实是视频云AI服务的最小单元的基础能力，实际上可以基于这些能力进行组合，像搭积木一样，渗透在视频各个场景当中，形成各类匹配业务的解决方案。

在落到实际的场景中，AI又将如何应用呢？

接下来邹娟老师介绍到，采集生产、分发播出、媒资管理是视频生产领域的三大场景，在这三个场景中，阿里云和客户一起成长，深入到客户的实际业务场景中，并结合自身产品规划，推出了视频AI的解决方案。

在采集生产的场景中，解决方案支持视频拍摄、字幕、剪辑合成与视频拆分；在视频播出场景，除了常见的视频审核，还有逐渐被大众认知的版权检测，以及在实时播出的过程中对视频中目标进行识别检测；在媒资管理场景中，最经典的是智能编目与智能封面，解决方案中还有基于指纹的去重和视频之间挖掘和整理的能力。

我们可以看到，通过基础AI能力的组合，和结合客户的实际业务场景，阿里云已经提供了一些具体的解决方案，下面选取了其中一些典型场景来介绍具体落地。

第一，视频采集场景——视频萌拍

市场上非常流行的短视频和拍照的APP中，基本都提供了基于人脸识别的技术的贴纸功能。很多客户希望能拥有丰富的拍摄效果，阿里云在短视频智能端的解决方案上就提供了视频实时的处理功能，内置人脸识别与动态贴纸库，未来还可以付费升级大眼、瘦脸等高级功能。

第二，视频生产制作场景——精彩集锦

这个是很多客户都拥有的业务场景，可以利用的AI技术特别多。下图左侧的AI技术结合云端视频剪辑能力，就可以做出很多有想象空间的事情。比如将人物出现的时间线连接起来，自动生成人物集锦；再比如经典的体育赛事精彩瞬间，前期的素材整理的工作可以通过AI来自动处理；还有专题制作这个领域应用也十分广泛，比如去年江南的大雪，广电媒体从业者希望能快速的从素材库中找到与雪景相关的视频来生成一个专题视频，利用AI能力，其实就可以根据场景的识别，提取雪景在各个视频当中的位置片段，搭配云端剪辑能力，比较轻松将视频制作出来；同时，影视剧剧集的片花也可以利用智能摘要、智能GIF来形成，一些视频片段可以基于指纹和多模态技术去实现。

第三，视频生产制作场景——ET字幕

还有一个需求量非常大的业务场景是ET字幕，实际上它是基于AI的自动字幕进行新视频创造的功能。首先，传统字幕生产是非常复杂的，首先得有一个团队去把语音转成文字，把时间线拍下来，在多语种情况下，可能还会有翻译团队介入，再把字幕导入到本地编辑软件进行合成。整个过程非常耗费时间和人力。如果利用AI技术，首先我们可以把语音生成文本，文本直接存在对应的有时间，我们也可以将文本翻译成所需的语种。同时，通过云剪辑的工具，对语音识别的结果和人工的结果进行check，人工干预量也远远低于传统的翻译量。这项技术除了可以应用于离线视频之外，也可以运用于会议直播的实时字幕，基于导播台切换多路流的时候，每一路流都可以自动生成字幕，产生互动的效果。ET字幕应用于视频生产制作场景，可以方便用户进行二次视频创作。

第四，视频生产制作场景——智能拆条

智能拆条有两个好处，第一是加速新闻短视频的发布，第二是把原始的长段视频拆成各个小片段，进入素材库从而丰富媒资系统，更方便制作出新的视频来。

智能拆条是基于AI的多模态信息进行拆条，目前是支持标准新闻形式，非标准的场景可以快速通过补充数据集快速训练来实现。

第五，视频分发播出场景——内容审核

进入到视频分发和播出领域，随着国家对于互联网视频的监管的加强，内容审核已经成为非常强烈的需求。最开始的只是鉴黄，到后面的黄、反、暴、恐、都要去鉴别，利用AI技术可以非常快速的鉴别出视频当中不合规的内容。

第六，媒资管理场景——智能编目

我们先来看下传统编目的效率，在电视台做深度编目，一个小时的视频大约需要二到四个小时完成编目，这个视频生产速度目前已经无法达到互联网的要求了。与传统的编目相比，AI技术可以从视频自动分类、视频自动打标、人物识别、语音和OCR识别等，自动生成源数据信息，进入媒资库，结合NLP、分词、语义分析、词性过滤等场景，进入到后续的搜索和推荐的领域。整个过程靠算法驱动，不需要人力，相对于人工处理，AI技术能更彻底地对视频进行结构化处理，标注出每个独立标签的时间线。

通过智能编目的方案组合，可以快速生成最基础的源数据，方便媒资管理。