基准测试
文章平均质量分 90
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
角色动画最新SOTA!港大&蚂蚁等CoDance:解绑-重绑实现任意数量、位置角色同屏起舞
摘要:本文提出CoDance框架,创新性地解决多主体动画生成中的"四个任意"挑战(任意主体类型、数量、空间位置和姿态)。通过提出"解绑-重绑"范式,该方法打破了传统刚性空间对齐限制:Unbind模块采用姿态偏移编码器实现动作语义解耦,Rebind模块通过文本提示和主体掩码实现精确重绑定。实验表明,CoDance在新建的CoDanceBench和现有基准上均取得SOTA性能,用户调研显示其在视频质量(0.90)、身份保持(0.88)和时序一致性(0.83)方面显著领先。该框架为多主体动画生成提供了新的解决方案原创 2026-01-28 00:02:30 · 887 阅读 · 0 评论 -
NanobananaPro/GPT-4o/Sora2/国产模型谁最强?ViStoryBench:全能故事可视化基准首发!
评估对象涵盖开源图像生成(StoryDiffusion, OmniGen2)、商业闭源模型(MOKI, Doubao, MorphicStudio)、多模态大模型(GPT-4o, Gemini)及视频生成模型(Sora2, Vlogger),揭示不同技术路线的结构性优势与短板。如果把“故事可视化”理解成一次跨媒介的“编码—传输—解码”:文本剧本(编码)→ 模型生成图像/分镜(传输)→ 观众在多镜头中读出人物与情节(解码)。这相当于把“叙事传播”拆成可标注、可复核的单位,让评测不再停留在“感觉像不像”。原创 2025-12-22 21:37:38 · 923 阅读 · 0 评论 -
铁钉水上漂、子弹穿苹果不炸?Nano-Banana等17款SOTA模型颤抖迎物理逻辑推理大考!
核心能力缺失:当前文生图模型缺乏对隐含世界知识和物理因果推理的理解。它们能生成逼真且符合指令的图像,但在需要常识和逻辑推理的提示词上经常失败。评估体系不完善:现有的评估方法要么侧重于组合对齐(即图像是否包含提示词中提到的元素),要么依赖单轮视觉问答进行打分。这导致对知识基础、多物理交互和可审计的证据等关键维度的测试严重不足。评估方法不可靠:依赖多模态大语言模型进行整体评判的现有方法存在幻觉(看到不存在的东西)、中心倾向偏差(打分趋于中庸)等问题,无法进行精细、可靠的评估。原创 2025-12-15 23:15:58 · 718 阅读 · 0 评论
分享