CHATANYTHING: FACETIME CHAT WITH LLM-ENHANCED PERSONAS

515 篇文章 3 订阅

已下架不支持订阅

该技术报告介绍了ChatAnything框架,它使用LLM生成拟人化角色,结合声音和外观生成技术,实现基于文本描述的在线聊天体验。通过声音混合和扩散器混合技术,以及像素级指导的人脸地标检测,提高了生成内容的质量和交互性。
摘要由CSDN通过智能技术生成

本文是LLM系列文章,针对《CHATANYTHING: FACETIME CHAT WITH LLM-ENHANCED PERSONAS》的翻译。

CHATANYTHING:与LLM增强的人物角色进行面对面聊天

摘要

在这份技术报告中,我们的目标是以在线方式为基于LLM的角色生成拟人化的人物角色,包括视觉外观、个性和音调,只有文本描述。为了实现这一点,我们首先通过仔细设计一组系统提示,利用LLM的上下文学习能力进行个性生成。然后,我们提出了两个新颖的概念:声音混合(MoV)和扩散器混合(MoD),用于产生不同的声音和外观。对于MoV,我们使用具有各种预定义音调的文本到语音(TTS)算法,并根据用户提供的文本描述自动选择最匹配的算法。对于MOD,我们将最近流行的文本到图像生成技术和会说话的头部算法相结合,以简化生成会说话对象的过程。我们将整个框架称为ChatAnything。有了它,用户只需输入一些文本,就可以用任何拟人化的人物角色制作任何动画。然而,我们观察到,当前生成模型生成的拟人化对象通常无法被预先训练的人脸地标检测器检测到,导致人脸运动生成失败,即使这些人脸具有类人的外观,因为这些图像在训练过程中几乎可以看到(例如OOD样本)。为了解决这个问题,我们结合了像素级的指导,在图像生成阶段注入人脸标志。为了对这些指标进

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值