AIGC下一步:如何用AI再度重构或优化媒体处理?

让媒资中“沉默的大多数”再次焕发光彩。

邹娟|演讲者

编者按

AIGC时代下,媒体内容生产领域随着AI的出现也涌现出更多的变化与挑战。面对AI的巨大冲击,如何优化或重构媒体内容生产技术架构?在多样的应用场景中媒体内容生产技术又有着怎样的实践效果?LiveVideoStackCon2023深圳站邀请到阿里云智能资深技术专家邹娟,与大家分享阿里云视频云的媒体内容生产技术实践。

策划 撰写 / LiveVideoStack、IMMENSE

《AIGC时代下阿里云视频云媒体内容生产技术实践》主题分享,包含如下四个部分:

 

01 AIGC时代的媒体内容生产技术架构

首先给大家分享阿里云视频云媒体服务的顶层架构设计,这为AIGC的快速落地奠定了基础。媒体服务整体架构分三层。

最底层是云原生底座,阿里云视频云构架在分布式云原生框架之上,视频云与我们的客户一样,自身也是云的使用者,可以获得云计算IaaS层弹性、按需按量、规模化的红利。

中间层为媒体基础层,即媒体服务的底层技术核心。

这一层分为三个部分:左侧的算法区域包括音视频编解码与增强算法、特效渲染算法、视觉AI算法、3A算法等。中间的媒体引擎是执行各类媒体处理任务、AI任务的发动机,负责集成算法及工程优化,设计统一的媒体处理框架,实现媒体处理Pipeline的高质量运行。最右侧为媒体计算调度,与媒体引擎紧密配合,把不同类型的媒体任务调度到最合适的集群和机器上,形成性能、画质、成本的综合最优解。

顶层为阿里云视频云提供的PaaS媒体服务——PaaS服务层,媒体服务PaaS以媒体内容生产为核心,其产物自然也是媒体内容消费的输入。例如转码输出的多格式多码率文件/流,大多为播放服务。PaaS服务层的模块划分思路即按照音视频生产消费的数据流向及模块依赖关系,划分为音视频采集-媒体处理-生产制作-媒资管理-媒体消费5个部分,其中“媒体汇聚”代表入方向,“媒体消费”代表出方向,“媒体处理”和“生产制作”用于媒体数据的内部处理和二创,“媒资”则是媒体数据/业务流程/生命周期策略管理的底座。

早在2017年,阿里云视频云就提供了视频AI相关服务,比如智能封面、视频DNA、智能审核等,那时这些服务以原子能力的形式提供,独立于视频云的媒体处理、生产制作、媒资服务之外。但随着AI能力的丰富,很多AI服务的输出产物就是音视频(比如视频集锦),或者需要与媒体处理同步进行才能有更好的效果(比如视频旧字幕擦除后叠加新字幕)。

因此技术架构迭代的第一步就是考虑媒体底层的AI能力融合。AIGC时代,媒体底层需要灵活融合各种AI能力,这种融合并不是业务层工作流的Activity编排,这样一般会引入多次编解码,带来画质与性能的损耗。我们选择把AI处理直接融入音视频处理pipeline,在Frame层面做最细颗粒度的编排。

回归到媒体业务流本身,在AI时代下,媒体服务PaaS可以在哪些方面优化?其实媒体业务流本身没有太大变化,变化的核心是使用了AI,希望AI能够模拟人类的思维,包括理解人的意图以及正确执行人的指令。当技术发展到一定程度,AI可以模拟人类的思维模式,场景就会被重构。阿里云视频云技术架构的迭代也会围绕这一思路展开。

阿里云视频云媒体内容生产技术架构在AIGC时代的迭代,也将从内容生产的三驾马车--媒体生产制作、媒资管理、媒体处理三个板块开展。

生产制作板块,我们的迭代方向是从单个制作环节使用AI技术转向全智能制作。除创意依赖人之外,AI可以参与到生产制作的其他环节,包括素材的挑选和生成、时间线的制作编排、以及效果渲染的大模型算法优化。

媒资板块的传统实现需要较多人工投入,例如专业媒体机构的编目软件需要大量人工编目数据录入的工作&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值