AI浪潮下，大模型如何在音视频领域运用与实践？_大模型在视频图像领域应用-CSDN博客

本文链接：https://blog.csdn.net/VideoCloudTech/article/details/134999222

视频云大模型算法「方法论」。

刘国栋｜演讲者

在AI技术发展如火如荼的当下，大模型的运用与实践在各行各业以千姿百态的形式展开。音视频技术在多场景、多行业的应用中，对于智能化和效果性能的体验优化有较为极致的要求。如何运用好人工智能提升算法能力，解决多场景业务中的具体问题，需要创新地探索大模型技术及其应用方式。本文由LiveVideoStackCon2023深圳站演讲《AI新范式下，阿里云视频云大模型算法实践》整理而成，演讲者为阿里云智能高级算法专家刘国栋，分享阿里云视频云的大模型算法实践。

《AI新范式下，阿里云视频云大模型算法实践》主题分享，包含如下四个部分：

01 音视频AI发展趋势与业务对AI算法的要求

首先我们看第一部分：音视频AI发展趋势与业务对AI算法的要求。

当下，音视频服务已广泛应用于互娱、广电传媒、教育、金融等各种行业，对场景的渗透也越来越深。这些行业、场景对智能化和体验的追求愈来愈高，同时用户希望用得起、更普惠。完成这样的目标，AI可以发挥重要作用，这已成为行业共识。

随着AIGC的发展，音视频领域的AI技术也呈现出了新的趋势，即对AI技术的通用性、理解能力、生成能力都提出了更高的要求。过去纯粹的定制小模型开发、单模态处理和预测范式有不少缺陷，触达到了能力上限，而目前音视频AI技术则走向了泛化能力非常强的预训练大模型、多模态信息融合、生成式等方向。还有值得提出的一点是AI Agent的能力，即要求AI有感知、决策、行动的能力，它目前已成为一个重要的研究方向。

当前，阿里云视频云的核心业务包括直播、点播、媒体服务、音视频通信，形成了完整的产品、解决方案阵列。这些业务、产品覆盖音视频从采集、生产、处理、媒资管理、传输与分发、播放与消费的全链路。

目前AI为音视频全链路的各环节提供了算法原子能力。举例来讲，在处理环节，我们开发了多个AI算法，在视频方面包括视频增强、视频修复、超分、插帧，HDR等；在音频方面包括智能降噪、语音增强、空间音频、影视音效等。这些AI算法都集成到产品中，提升了产品的竞争力。

当然，AI除了提供算法原子能力之外，也渗透到视频云的引擎层、调度层、业务层，进一步提升它们的智能化水平。

尽管AI已经大量融入业务，我们对业务做了深入分析后，还是发现了一些痛点问题。举例说明，云剪辑，很多时候还是需要指定剪辑模版，缺乏自动化，另外，获取高质量的素材也很难；在媒资管理中，视频检索的质量仍然存在不少提升空间。但同时，由于大模型、AIGC带来的巨大变革，我们认为解决这些业务痛点问题已成为可能。

我们总结出几点新趋势下视频云业务对AI算法的要求，包括追求效果性能上的极致体验，追求算法的泛化性、通用性，提升AI自主决策、规划处理链路的能力，以及降低开发、接入、使用的成本。