多媒体分析与理解_最近在了解的:阿里云的多媒体 AI 技术服务

阿里云多媒体AI是一个基于文本、图像和语音理解的视频AI平台,提供视频内容结构化、静态封面和动态GIF封面生成等服务。产品包括底层算法服务层、中间逻辑神经层和上层应用处理层,支持多模态分析、多场景应用,并具备丰富的标签体系和高效处理框架。此外,其数据安全性高,易用性和灵活性强,适合电商、传媒和泛娱乐等领域。
摘要由CSDN通过智能技术生成

多媒体AI(MultiMedia AI)是一款基于文本分析、图像理解、语音识别的视频AI通用技术平台产品,利用多模态的视频理解能力提取视频中包含的结构化信息,生成符合大众审美的精彩集锦,适用于电商、传媒、泛娱乐等场景下的视频的检索和推荐;同时底层数据库提供海量的物体和人物库,支持上万级的基础标签识别和灵活的自注册能力,轻松应对业务多变性。

多媒体AI产品实例(以下简称 媒体AI实例)是对应AI服务以及一个能匹配推荐性能的环境,包含 CPU、内存等最基础的计算组件,是媒体AI支撑给每个用户提供服务的实际操作实体。媒体AI实例是以提供的能力服务为核心,以云服务器为基础的概念。其他的资源,比如磁盘、IP、镜像、快照等,只有与计算资源(ECS等服务资源)结合后才能使用。

多媒体AI由底层算法服务层、中间逻辑神经层和上层应用处理层组成。

底层算法服务层:整合封装人脸识别、语音识别、通用标签、视频分类、logo识别(台标)等多项视觉理解算法,同时进行服务化集成,形成统一分析服务层,用于对输入内容进行结构化分析。

中间逻辑神经层:通过上层输入的素材(clib、shot、sequence等)进行解析,同时将解析后的素材,调度转发对应底层算法服务,获取输出结果,同时将多个分析结果进行merge整合、交叉验证,完成后将merge后的结果数据向上输出。

上层应用处理层:作为外部视频素材的统一输入通道,以API方式提供视频上传服务,同时约定上传格式以及大小等输入条件,提供视频分解服务,将上传的视频进行合理分解,供后端逻辑层进行调度分析。此外,上层应用层还提供了人脸库创建等工具型接口的透传,供用户实现应用配置。

基本概念

应用:一个进行任务分析的算法分析事务,其中包含关联调用的算法服务、算法指标参数、配置模板、人脸库等应用数据,用户可以设置不同的人脸数据、置信度阈值和调用算法清单。其中最大的并发视频路数为5路。应用创建后可以变更和删除。

人脸库:在一个用户下创建的业务数据单元,一个用户可以创建多个数据库,人脸库在实例内的命名唯一,人脸总数10w张。

任务:视频分析的最小单元,对视频状态、视频分析结果进行说明。

限制说明

并发5路:指用户能够提交同时进行分析的最大视频文件数量,超过此数量则提交的视频分析任务默认进入队列等待。

视频分析时长:指视频提交完成后,开始分析时计算,结束时间以任务分析完成时的回执通知消息时间为准。

倍速:单个处理倍速=视频实际时长/最差任务运行时长(不算入下载时长)。

产品流程示意图

37898e3244549d62e0c13a87517712c3.png

产品功能

多媒体AI由视频内容结构化、视频静态封面、视频动态GIF封面三大能力组成。

视频内容结构化:通过对视频,文本,图像等内容的理解对多媒体进行分类,以及关键信息提取,可广泛应用于多媒体内容管理,搜索和推荐。

视频静态封面:通过理解视频主题含义,结合清晰度,丰富度,对比度,精彩度以及与主题的契合程度5个方面分析,输出符合大众审美的视频封面图,适用于电商,泛娱乐中短视频场景下的视频流量推荐。

视频动态GIF封面:通过理解视频主题含义、结合时序、故事情节、清晰度三方面分析结果,输出能够代表视频大意的GIF图片,适用于泛娱乐场景下直播精彩画面生产,提升直播内容的点击率和用户停留时长。

模板管理:通过模板配置,实现不同行业不同业务场景的定向适配,目前主要用于视频内容分析服务中,涉及分析类型主要涵盖了人物识别,视频分类,自定义人物库,以及语音文本关键词库等功能。

产品优势

与拥有独立图像算法服务的其他产品相比,多媒体AI的优势包括:

多模态:利用多模态技术进行视频内容理解,有效提升标签精准度和素材丰富度,同时产生多项丰富的中间态结果,供多业务场景选择。

多场景:应用于传媒、电商、广告行业下的搜索、推荐、植入等多场景的内容识别。

丰富的标签体系:横向拥有万级的基础标签内容支撑业务广度;纵向拥有多级分类支撑业务深度。

高效框架:支持多线程多并发的视频处理,显著提升视频处理效率。

数据安全性:使用非对称加密策略,对单个客户在云上存储的业务数据进行加密,同时结合用户权限限制数据访问。

易用性:简洁的接口输入参数,简单的接口调用方式;支持自定义人脸、自定义模板等灵活配置,同时支持批量上传等功能,便于云上业务方使用。

灵活性:引入模板管理功能,可通过模板参数配置实现不同行业的定向适配,使得产品的应用场景更加灵活。

API 接口:使用多媒体AI云上API,通过APPID进行应用访问设置,通过APPID关联至应用服务,使开发使用更加方便。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值