视频审核难?Amazon Nova Lite来解决

引言:
Amazon Nova 是新一代先进的(SOTA)基础模型(FM),可提供前沿智能和行业领先的性价比,仅在 Amazon Bedrock 上提供。
本文将分享 Amazon Nova Lite,构建视频分享平台的智能审核方案


该项目中对视频审核的关键诉求有如下三个方面。
 

1图片理解能力

待审核的内容为全球用户上传的vlog,不同文化背景下审核的标准会有差异。能否准确识别上传内容,根据不同地域要求调整审核规则,并保证审核透明度是重点考核的因素。 

2图片处理速度

 用户上传的视频时长较长,往往会超过1小时。为保证用户使用体验,项目希望视频上传后能在1~2分钟完成内容审核并成功发布。由于平台视频采用专有格式,不适合直接使用视频理解模型来进行审核。项目采用每10s截帧的方式进行图片审核。这就要求图片的处理速度能达到为每秒6张以上。

3运营成本 

该项目的视频分享平台面向全球用户,用户量大、分享视频数量多、审核任务重。审核成本低廉是长期运营的必要条件。

亚马逊云科技自研大模型Amazon Nova系列,从Model card分析,其在多模态图片、视频理解方面表现突出,而且在响应延时和价格方面同样较同等级模型具有明显优势,因此本次我们对Amazon Nova模型,尤其是Amazon Nova Lite进行了详细的测试和分析。

                                   图片理解能力考察

 首先,模型的图像理解能力是视频审核方案选型时的核心要素。基于Amazon Nova系列模型的技术报告和模型卡片,Amazon Nova Lite与Amazon Nova Pro在图片理解上都具有优异的表现。以下是Nova和Gemini在VATEX和EgoSchema上的对比表格:

 注:ᴬ表示4-shot评估(是指Genmini1.5在进行模型评估时使用了4个examples或prompts的测试方式)。

参考链接:

https://assets.amazon.science/b0/2b/e74dd4f84f188701fd06792670e7/the-amazon-nova-family-of-models-technical-report-and-model-card.pdf

VATEX:是一个视频描述基准测试,涵盖了多样化的人类活动。是在包含约10秒长度视频的公开测试集上进行评估。评估使用CIDEr分数作为指标。

EgoSchema:是基于长视频进行的问答基准测试,该测试的特点是要基于较长时间的观看(即ertificate length)才能给出答案。这些视频涵盖了广泛的自然人类活动,并配有人工策划的多项选择题问答对。

从表格可以看出,Amazon Nova系列模型在广泛人类活动的视频理解上都具有更优于Gemini1.5的能力。

 

                                   图片审核成本考察 

Amazon Nova的理解类模型对图片处理依然依据Token的数量收费模式,图片分辨率与预估Token的关系如下: 

基于以上的数值,我们可以看到图片分辨率与预估的Token数量之间存在线性关系。具体的数值关系可用以下线性回归公式表示: 

即:Token Count=0.001351×Resolution pixels+244.11。

基于2024年12月发布的Amazon Nova系列模型的价格,我们对不同分辨率的图片分别计算了处理100万张图片时所需的成本。同时与亚马逊云科技的Rekognition在处理相同数量的图片时的价格做了对比:

 

以Amazon Nova Lite处理分辨率为426*240的图片为例,计算方式如下:

一百万张图片的处理成本=(每张图片Token数目xToken单价)x一百万张=(0.001351426240+244)X(0.06/1000000)*1000000=$22.9。

Rekognition处理一百万张图片价格=$0.001/张*1百万=$1000。

可以看到,Amazon Nova Lite在图片处理成本上具有绝对优势。

                                 图片处理速度考察 

在确定了处理能力和价格优势后,我们着重对Claude 3 Haiku,Amazon Nova Lite和Rekognition的处理速度进行了对比。 

可以看到同一模型对不同分辨率图片的处理性能基本一致,并没有因为图片分辨率变大处理速度有明显变慢的情况。

同时大模型的处理速度(每张2~3秒)以单并发的处理性能看,还难以满足对该场景审核性能的要求。

接下来,我们在并发情况下对性能做进一步测试。

如下测试结果显示的是,不同并发数下,每个并发处理10张图片的平均单张处理时间(秒)。可以看到,并发数为30时,单张图片的处理性能仍能保持在2~3秒,并发处理能力可达每秒10张,完全满足性能要求。

 

                                              总 结 

 

由以上的测试和分析可以看到,Amazon Nova Lite在多方面的优势使其成为构建智能视频审核系统的理想选择。

首先,Amazon Nova Lite在图片理解能力上表现出色,能够准确识别图片中的人物、服饰、场景等元素,并可以通过Prompt根据不同文化背景调整审核规则。这一能力在处理全球用户上传的视频内容时尤为重要。相比之下,Rekognition则难以适应多元文化背景下的复杂审核需求,需要客户化的再次训练才能满足要求。

其次,Amazon Nova Lite在处理速度方面可以满足需求Amazon Nova Lite能够在高并发情况下保持稳定的处理速度,满足了高效审核的需求。

此外,Amazon Nova Lite在图片处理成本上的优势也不容忽视。测算表明Amazon Nova Lite在处理大量图片时的成本远低于Rekognition。这一成本优势使得Amazon Nova Lite在大规模视频审核任务中具有更高的经济效益。

综上所述,Amazon Nova Lite在图片理解能力、处理速度、成本和文化特征识别方面均表现出色,使其成为构建智能视频审核系统的理想选择通过Amazon Nova Lite,视频分享平台可以实现多快好省的智能视频审核,提升用户体验和平台安全性
 



声明:本文转发亚马逊云科技(AWS)如需获取详细解决方案,可通过官方文档或者合作伙伴

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值