【AIGC评测体系】大模型评测指标集

(☆)SuperCLUE

Panda

(1)SuperCLUE-V(中文原生多模态理解测评基准)

Panda

(2)SuperCLUE-Auto(汽车大模型测评基准)

Panda

(3)AIGVBench-T2V(文生视频基准测评)

Panda

(4)SuperCLUE-Coder(代码助手测评基准)

Panda

(5)SuperCLUE-RAG(中文原生检索增强生成测评基准)

Panda

(6)SuperCLUE-Agent(Agent能力测评基准)

Panda

(7)SuperCLUE-Image(中文原生文生图测评基准)

Panda
Panda

(8)“巢燧”(大模型测评基准)

Panda

(9)RAGAs(RAG性能测评)

(10)社交智能评测基准(情商评测基准)

(11)SuperCLUE-Reasoning(链式推理测评基准)

(12)SuperCLUE-T2V(文生视频测评基准)

(13)SuperCLUE-TTS(中文原生语音合成测评基准)

中文原生语音合成测评基准(SuperCLUE-TTS),旨在深入评估新一代语音模型的中文语音合成能力。该基准不仅全面衡量模型在准确性、清晰度、自然度和情感表现等基础能力方面的表现,还重点考察其在语音导航、有声读物、语音播报、内容配音、直播广告等场景应用的适用性。同时,本次测评还单独设置了声音复刻任务,选取了8种不同音色(4男声4女声,分别取自现实名人、网络红人、影视人物、卡通人物,每段素材时长约30秒),用以评估模型对声音的还原与模仿能力。
在这里插入图片描述
在这里插入图片描述

参考博客: 中文原生「语音合成」测评基准榜单发布!首期声音复刻榜单同步揭晓,豆包模型双榜夺冠!

(14)SuperCLUE-Voice(实时语音交互中文测评基准)

中文原生实时语音交互测评基准(SuperCLUE-Voice)旨在深入评估新一代实时语音交互产品在中文语音交互中的整体表现。该基准不仅全面考察产品在打断、说话风格等语音交互核心能力上的表现,还重点评估其在记忆能力、联网能力等通用能力上的综合水平。同时,测评还特别关注产品在实时翻译、教育辅导等五大实际应用场景中的表现,旨在为语音交互技术的多场景落地提供全面的评判标准。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考博客: 实时语音交互中文基准12月测评结果出炉,4大维度15项能力8款应用,讯飞星火领跑,国内产品延时、打断和场景应用表现出色

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值