“视网膜”重装来袭 AI技术为视频业务场景赋能

最新推荐文章于 2024-11-03 22:14:01 发布

weixin_33912453

最新推荐文章于 2024-11-03 22:14:01 发布

阅读量109

点赞数

文章标签：人工智能数据库

原文链接：https://yq.aliyun.com/articles/321483

版权

在上周在北京圆满落幕的云栖大会北京峰会之上，AI是一个热门词。阿里云在峰会主论坛现场首次公开展示了AI布局，提出了产业AI的概念，发布了整合城市管理、工业优化、航空调度等全局能力为一体的ET大脑，将人工智能赋能于生活中的各处场景。

阿里云解决方案总经理刘澍泉在主题为《云转型之路》的演讲中讲到，人工智能已经进入到产业化的阶段，我们可以看到，人工智能和更多垂直化行业、和细节产业的结合。人工智能和视频云的技术结晶——“视网膜”视频云智能视频解决方案，也在演讲中正式对外发布。

我们知道，在视频领域中，依托视觉计算技术，视频的处理效率可以得以提升，我们也可以对视频内容进行更深层次的理解和数据挖掘，两者的结合能为产业带来更多的可行性。那么阿里云在视频AI技术领域拥有哪些能力？我们先来看一个具体场景。

当你疲惫的回到家，想选择一档视频节目来观看的时候，你只能通过标题简单粗暴地对节目内容进行判断，你可能花费了20分钟，却选择了一个看了5分钟就放弃了的节目，因为你对它并不感兴趣。所以，当视频的内容能够被人工智能读懂，这个场景就会被改写。在云栖大会北京峰会的现场，阿里云解决方案总经理刘澍泉现场为大家解答了这一改变是如何实现的。

改变正是来自于阿里云视网膜——视频云智能视频解决方案，这是基于阿里云海量视频的分布式计算和流媒体处理能力，利用机器学习、模式识别、计算机视觉等人工智能模块对媒体数据进行分析、理解和处理。

首先，视网膜系统可以针对人脸进行人物分析，基于深度学习技术和海量人脸数据库，对视频画面中出现的名人、明星等人物进行人脸识别，现场的演示可以看出，影视片花中人物的索引被轻松地、准确无误地呈现出来。不仅如此，视网膜系统还可以通过用户上传人脸照片完成人脸注册，视频中如果出现这个人脸，就可以被识别出来。

其次，通过视频内容理解和用户行为分析，视网膜系统可以将视频中最能诠释视频内容的一帧拿出来做为展示页面，更可以对核心内容进行动态截取，精准的向观看者输出视频封面。视频首图和视频摘要功能降低了观看者的选择复杂度，可以有效提升视频的点击率。

除此之外，视网膜视频云智能解决方案还拥有视频分类、多模态分析、标签预测，视频内容审核等多项能力，可以有效提升视频的分发、管理效率。

不仅仅是把视频内容结构化，视网膜系统也可以针对语音进行动态识别，从现场演示中我们可以看到，视频中的每一句对话都被快速、准确地转化成文本，并且形成时间轴可以被选择播放。值得一提的是，视网膜系统也可以把OCR（视频中出现的文字）轻松地识别出来。

（阿里云视网膜系统视频理解能力与应用场景解读）

我们可以看到，依托于视网膜系统，视频的内容已经完全被结构化处理。当我们分析视频的时候，不再依靠人力，而是依靠人工智能技术。阿里云解决方案总经理刘澍泉表示：“通过智能视频的解决方案，视频处理的整体效率提升了3600倍。我们可以把它赋能给传媒广电行业，让其进行长媒体到短媒体的加工，我们也可以赋能给UGC内容生产的平台，让其生产出内容更精彩的小视频。”