在通用视频生成模型横扫互联网的今天,哔哩哔哩(B站)作为广大二次元爱好者聚集地,为AI动画创作带来了革命性的突破。
昨天,B站宣布开源其最新的动画视频生成模型——Index-AniSora,这是首个专为二次元风格视频生成打造的AI模型,支持一键生成多种动漫风格视频,包括番剧、国创、漫改、鬼畜等。
B站团队提出了一种统一的框架,专为动画视频生成设计,包含时空掩码模块,能够执行图像到视频生成、帧插值和局部图像引导动画等任务。
用户仅需输入一张静态图片或一段文字描述,模型即可通过“动态拆解-重构”流程,生成流畅且风格统一的视频。
我们先来看看官方给出的不同艺术风格图像生成视频演示:
提示:画面中角色举起手臂,可以看到气体流沿着其表面流动。
、、
提示:图片中的人物坐在一辆向前行驶的汽车里,向后挥手,头发随风左右摇摆。
除了图像生成视频,在时间控制方面,官方也逐帧展示了画面效果:
提示:在这个视频中,我们看到的是动画电影《美女与野兽》中的一个场景,有贝儿和野兽。贝儿有着长长的金发,站在一间有大窗户的房间里,看着窗外并对它说话。她穿着一件紫色的连衣裙,上面是一件紫色的上衣...
第一帧
中框
最后一帧
视频
团队收集了 948 个不同动画视频的评估基准,在 VBench 和人类双盲测试上的评估表明角色和动作的一致性,在动画视频生成方面取得了最先进的结果。
在技术实现方面,B站的研究团队构建了首个面向动漫领域的高质量奖励数据集,通过3万条人工标注数据,从视觉平滑度、角色一致性等6大维度量化视频质量。
基于此,团队首创了AnimeReward评估系统——一个专为动漫视频生成对齐设计的多维度高可信奖励系统。并引入GAPO(差距感知偏好优化)算法,强化模型的对齐性能,使得生成的动画视频更贴近人类偏好。
B站这次放出了包含模型权重、训练代码、数据集标注规范在内的全套工具链。
回溯B站的AI布局,从2022年上线实时翻译的AI字幕,到2023年推出老动画4K修复工具,再到如今的技术开源,这家以二次元文化起家的平台,正在用技术重构内容生产的底层逻辑。
当技术民主化的浪潮席卷二次元世界,我们或许正在见证一个新时代的黎明——在这个时代,每个人都能成为动画导演,每段故事都值得被完美呈现。