南开大学与字节跳动研究人员推出开源AI工具ChatAnything：用文本描述生成虚拟角色

智云研

于 2023-11-23 09:40:57 发布

阅读量544

点赞数 4

文章标签：人工智能

本文链接：https://blog.csdn.net/aizhushou/article/details/134569457

版权

南开大学与字节跳动的研究团队推出了ChatAnything，这是一个利用大型语言模型生成具有视觉、个性和语调的虚拟角色的AI工具。通过文本描述，用户可以定制角色的外观和声音。该框架采用创新的混合声音和扩散混合技术，并通过像素级引导提高面部特征生成，实现了基于生成内容的自动面部动画。

摘要由CSDN通过智能技术生成

南开大学与字节跳动研究人员合作推出了一项引人注目的研究，发布了一种名为ChatAnything的全新AI框架。该框架专注于通过在线方式生成基于大型语言模型（LLM）的角色的拟人化形象，从而创造具有定制视觉外观、个性和语调的人物。

简答的说，ChatAnything是一个创新的产品，利用语言模型技术为LLM角色创建具有视觉外观、个性和语调的拟人化角色。通过混合语音和外观生成概念，用户只需几个文本输入即可定制角色。该产品采用面部标志控制和评估数据集，通过像素级引导实现更高的人类面部特征生成率。ChatAnything支持文本和图像输入，为用户提供创造独特虚拟角色的自由度。

研究团队充分利用了LLMs的上下文学习能力，通过精心设计的系统提示生成具有个性的拟人化形象。他们提出了两个创新概念:混合声音（MoV）和扩散混合(MoD)，以实现声音和外观的多样生成。MoV使用文本到语音(TTS)算法生成预定义音调，根据用户提供的文本描述选择最匹配的音调。而MoD则结合了文本到图像生成技术和说话头算法，简化了生成交互式对象的过程。

然而，研究人员在使用当前模型生成的拟人化对象时遇到了一个挑战，即这些对象通常无法被预先训练的面部关键点检测器检测到，导致面部运动生成失败。为了解决这个问题，他们在图像生成过程中引入了像素级的引导，注入人脸关键点，显著提高了面部关键点检测率，从而实现了基于生成的语音内容的自动面部动画。

最低0.47元/天解锁文章

智云研

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
南开大学与字节跳动研究人员推出开源AI工具ChatAnything：用文本描述生成虚拟角色

为了验证引导扩散的有效性，研究人员创建了一个包含不同类别提示的验证数据集，并使用预训练的面部关键点检测器评估了面部关键点检测率，展示了他们提出的方法的影响。通过混合语音和外观生成概念，用户只需几个文本输入即可定制角色。然而，研究人员在使用当前模型生成的拟人化对象时遇到了一个挑战，即这些对象通常无法被预先训练的面部关键点检测器检测到，导致面部运动生成失败。为了解决这个问题，他们在图像生成过程中引入了像素级的引导，注入人脸关键点，显著提高了面部关键点检测率，从而实现了基于生成的语音内容的自动面部动画。
复制链接

扫一扫