摘要:二维卡通风格是数字角色创作中的一种突出艺术形式,尤其在年轻观众中备受欢迎。尽管数字人技术的发展促进了对照片级真实数字人类和三维角色的广泛研究,但交互式二维卡通角色相对而言受到的关注较少。与需要复杂构建和资源密集型渲染的三维角色不同,Live2D作为一种广泛使用的二维卡通角色格式,提供了一种更高效的替代方案,它能够在无需构建完整三维模型的情况下,以模拟三维运动的方式为二维角色添加动画。此外,Live2D采用轻量级的HTML5(H5)渲染技术,提高了可访问性和效率。在本技术报告中,我们介绍了Textoon,这是一种基于文本描述生成Live2D格式的多样化二维卡通角色的创新方法。Textoon利用前沿的语言和视觉模型来理解文本意图并生成二维外观,能够在一分钟内创建出各种令人惊叹且具交互性的二维角色。项目主页为:https://human3daigc.github.io/Textoon_webpage/。Huggingface链接:Paper page,论文链接:2501.10020
- 引言:
- 二维卡通角色:二维卡通角色以其可爱的外观和鲜艳的色彩而广受欢迎,广泛应用于电影、游戏、社交媒体和广告中。这些角色可以以二维或三维的形式呈现,但三维动画虽然提供了更大的创作和控制自由,却往往伴随着高昂的成本和对渲染引擎的依赖。
- Live2D技术:相比之下,创建二维卡通数字角色更加直接高效,尤其适合处理能力有限的设备,如手机和网页应用。Live2D作为一种领先的标准,为提供实时交互性能提供了支持。它通过基础插图和控制点集来定义角色不同部分的运动,从而将原始二维艺术作品转化为动态、可动画化的角色。
- 研究动机:尽管Live2D简化了动画二维角色的过程,但分层和网格绑定的详细过程仍然耗时费力。此外,修改现有的Live2D模型以实现不同的外观仍然是一个挑战。为了解决这些问题,研究者提出了Textoon框架,旨在从文本描述中生成多样化的Live2D模型。
- 相关工作:
- 文本到数字人类:例如ChatAvatar,它利用文本输入生成具有超高分辨率纹理的面部资产,简化了传统3D资产创建过程。然而,其生成结果不完整,缺乏头发、眼球、身体和服装等元素。
- Make-A-Character:允许用户通过简单的文本描述创建高质量、完全详细且可动画的三维数字人类。但生成结果需要强大的渲染引擎,且渲染成本高。
- 扩散模型和控制网络:如Stable Diffusion通过集成UNet框架,以文本描述为条件迭代生成图像。ControlNet通过引入额外的控制信号或约束,提高了生成结果的准确性和一致性。
- 大型语言模型:如GPT-3展示了大型语言模型(LLMs)可以在无需微调的情况下实现零样本迁移到下游任务。最新的Qwen2.5模型在遵循指令、生成长文本、理解结构化数据方面表现出色。
- Textoon方法概述:
- 文本解析:Textoon的文本解析模型能够从复杂的用户描述中提取详细信息,如后发、侧发、刘海、眼睛颜色、眉毛、脸型、服装类型和鞋型等。这种先进的文本解析能力允许更灵活的用户输入。
- 可控外观生成:解析文本后,每个组件被合成为一个综合的角色模板。轮廓边界提供了对生成角色形状的精确控制,而文本到图像模型则负责生成内部颜色和纹理。
- 可编辑性:如果用户对初始生成结果不满意,并希望修改特定细节,Textoon框架提供了协助选择特定位置以添加、删除或修改元素的功能。
- 动画:针对Live2D模型嘴巴的控制系数主要包括MouthOpenY和MouthForm。为了增强卡通角色语音动画的准确性,Textoon将ARKit的面部混合形状能力集成到Live2D的口型同步功能中,显著提高了动画的逼真度和精度。
- Live2D生成方法:
- Live2D初步介绍:典型的Live2D角色由多个层组成,包括身体、服装、头发等元素。每个层被分割成多边形网格,以控制二维角色的不同部分。
- 组件拆分:为了简化生成过程,Textoon将一些复杂、较小的层合并,以减少整体层数。尽管这可能略微影响详细运动的表达力,但提高了生成过程的效率。
- 文本解析:由于大型语言模型无法直接从复杂多变的输入文本中提取合适的组件词,Textoon通过随机组合现有组件和常用词生成描述性文本,并利用这些数据微调Qwen2.5-1.5B模型,实现了毫秒级的文本解析速度和高准确率。
- 可控外观生成:Textoon选择了SDXL作为文本到图像模型,因其出色的可控性、图像边缘清晰度和处理长文本描述的有效性。通过结合不同组件并利用基础模型的控制功能,Textoon实现了多样化的输出,同时保持了原始的驱动性能。
- 重新编辑:Textoon采用了一种图像编辑技术,允许用户自由绘制特定区域并用文本注释这些草图,以细化初始角色图像的细节。
- 组件完成:一旦确定了最终角色图像,下一步就是解析图像并将每个组件精确定位到各自的层上。Textoon使用由控制机制生成的模板作为掩码,直接从原始图像中提取像素,并处理遮挡区域。
- 动画增强:受ARKit的启发,Textoon开发了更全面的口型同步参数,显著增强了模型动画的生动性和表现力。
- 实验结果:
- 多样化输出:结合上述模块,Textoon系统能够在一分钟内基于单个句子生成可控、美观且可驱动的Live2D角色。生成的示例展示了Textoon在视觉吸引力和多样性方面的有效性。
- 局限性:
- 文本表达的局限性:尽管Textoon利用生成模型实现了Live2D角色的自动化生成,但文本难以传达复杂和微妙的信息,使得细节的控制生成成为挑战。
- 组件样式限制:生成结果受到原始Live2D模型中组件层布局的限制,组件样式的多样性有限。
- 结论:
- 创新贡献:Textoon是首个从文本描述生成Live2D卡通角色的方法,能够在一分钟内快速创建多种令人惊叹且具交互性的二维角色。通过集成ARKit兼容的面部混合形状,Textoon增强了嘴巴运动的表达力,允许与用户进行生动的对话。生成的Live2D卡通角色可以使用HTML5无缝渲染,提供了广泛的应用可能性。
- 未来展望:
- 随着语言和视觉模型的不断发展,Textoon的文本解析和图像生成能力有望进一步提升,生成更加精细和逼真的二维卡通角色。
- 未来工作可以探索如何扩展Textoon的组件库,增加更多样化的组件样式,以满足用户的不同需求。
- 此外,还可以研究如何将Textoon与其他交互技术结合,如语音识别和手势识别,以提供更丰富和沉浸式的用户体验。
Textoon作为一种创新的二维卡通角色生成方法,展示了从文本描述到可动画化角色的全过程。通过利用先进的语言和视觉模型,Textoon不仅提高了生成效率,还保证了生成角色的多样性和交互性。尽管目前仍存在一些局限性,但随着技术的不断进步,Textoon有望在数字角色创作领域发挥更大的作用。