AIGC
文章平均质量分 72
杰说新技术
AIGC最新前言落地技术研讨
展开
-
最新集成视频、图像、语言理解和生成的多模态模型VILA-U分享
VILA-U是一个由清华大学、麻省理工学院和英伟达联合推出的统一多模态基础模型。VILA-U能够同时处理视频、图像和文本数据,打破了传统视觉语言模型中理解和生成功能分离带来的限制。VILA-U采用了自回归Transformer架构,能够处理离散化的标记,并且由几个核心组件构成:视觉编码器、语言模型以及投影仪,这些组件共同工作以桥接视觉和文本两种模态的嵌入。VILA-U通过预训练期间将离散视觉标记与文本输入对齐,并利用自回归图像生成技术,在高质量数据集上可以实现与扩散模型相媲美的图像质量。原创 2024-11-15 06:00:00 · 135 阅读 · 0 评论 -
腾讯首个3D生成大模型Hunyuan3D-1.0分享
Hunyuan3D-1.0是腾讯混元团队开发的首个同时支持文字、图像转3D的大模型,可以基于文本描述或单张图像生成3D模型。Hunyuan3D-1.0采用了多视图生成和多视图重建两阶段的方法,能够从不同视角捕捉对象的纹理和几何信息。在多视图生成阶段,Hunyuan3D-1.0模型采用自适应CFG技术,为不同视角和时间步设置不同的CFG尺度值,以平衡生成控制和多样性。原创 2024-11-11 06:00:00 · 515 阅读 · 0 评论 -
Meta AI最新推出的长视频语言理解多模态模型LongVU分享
LongVU是由Meta AI团队推出的一种专注于长视频语言理解的多模态模型。LongVU的架构设计包括使用DINOv2技术去除冗余帧,融合剩余帧的特征,通过跨模态查询选择性地减少视觉标记,根据时间依赖关系进行空间标记压缩,以进一步适应大型语言模型的有限上下文长度。LongVU利用基于文本引导的跨模态查询来选择性地减少视频帧的特征,能保留与文本查询最相关的帧的详细信息,将其他帧减少到低分辨率的标记表示。原创 2024-11-08 06:00:00 · 423 阅读 · 0 评论 -
超越ASR+LLM+TTS,最强端到端语音对话模型GLM-4-Voice部署
GLM-4-Voice是由智谱公司开发的一款端到端的情感语音模型。GLM-4-Voice由三个部分组成,包括Tokenizer、Decoder和9B模型,其中Tokenizer负责将连续语音转换为离散token,Decoder将token转换回连续语音输出,而9B模型则基于GLM-4-9B进行预训练和对齐,理解和生成离散化的语音。GLM-4-Voice能够模拟不同的情感和语调,如高兴、悲伤、生气、害怕等情绪,并用合适的情绪语气进行回复,这使得它在情感表达上比传统的TTS技术更加自然和细腻。原创 2024-11-04 06:00:00 · 314 阅读 · 0 评论 -
编程小能手,Yi-Coder模型部署
Yi-Coder是零一万物推出的一系列开源AI编程助手模型,专为提升代码生成、理解、调试和补全等任务的效率而设计。Yi-Coder能够处理长达128K tokens的上下文内容,有效捕捉长期依赖关系,适用于复杂项目级代码的理解和生成。Yi-Coder支持52种主要编程语言,包括但不限于Java、Python、C++、JavaScript等,能够在代码生成和跨文件代码补全方面表现优异。原创 2024-11-01 06:00:00 · 438 阅读 · 0 评论 -
最新阿里开源视频生成框架Tora部署
Tora是由阿里团队推出的一种基于轨迹导向的扩散变换器(Diffusion Transformer, DiT)技术的AI视频生成框架。Tora在生成过程中可以接受多种形式的输入,包括文字描述、图片或物体移动的路线,并据此制作出既真实又流畅的视频。通过引入轨迹控制机制,Tora能够更精确地控制视频中物体的运动模式,解决了现有模型难以生成具有精确一致运动的问题。Tora采用两阶段训练过程,首先使用密集光流进行训练,然后使用稀疏轨迹进行微调,以提高模型对各种类型轨迹数据的适应性。原创 2024-10-28 06:00:00 · 750 阅读 · 0 评论 -
支持多种数据来源的ocr识别,GOT-OCR2.0模型部署
GOT-OCR2.0模型是一种代表了光学字符识别(OCR)领域最新进展的高性能通用OCR解决方案。GOT-OCR2.0模型在设计上追求极致的通用性和灵活性,旨在克服传统OCR系统中遇到的各种局限性,并为用户提供了前所未有的文本识别体验。GOT-OCR2.0通过一个结构优化的vision encoder + input embedding layer + decoder架构实现了高效的数据处理,其中encoder部分采用带local attention的VITDet架构来有效管理显存使用。原创 2024-10-25 06:00:00 · 667 阅读 · 0 评论 -
阿里最新开源多模态大模型Ovis部署
Ovis是由阿里国际AI团队开发的一款多模态大模型,它在图像理解任务上达到了SOTA水平。Ovis能够处理和理解多种不同类型的数据输入,如文本、图像等,与大型语言模型相比,它在处理非文本数据方面有显著优势。Ovis模型的特点包括创新的架构设计、高分图像处理能力、全面的数据优化、卓越的模型性能,以及全部开源可商用的优势。Ovis在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现,例如可以准确回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。原创 2024-10-21 06:00:00 · 490 阅读 · 0 评论 -
新型扩散模型加速框架Hyper-sd分享
Hyper-SD是由字节跳动技术团队提出的一种新颖的扩散模型加速框架,通过轨迹分段一致性蒸馏和人类反馈学习,显著提升了低步数下的图像生成性能。Hyper-SD结合轨迹保持和重构策略,实现了快速且高质量的图像生成,同时支持多种风格和可控生成,为生成式AI领域带来新SOTA性能。在实际应用中,Hyper-SD 提供了多种不同步数的 LoRA 模型,可以应用于不同的基础模型,并始终生成高质量的图像。原创 2024-10-18 06:00:00 · 384 阅读 · 0 评论 -
超GPT3.5性能,无限长文本,超强RAG三件套,MiniCPM3-4B模型分享
MiniCPM3-4B是由面壁智能推出的一个高性能的端侧AI大模型。MiniCPM3-4B具备32k的上下文窗口,这意味着它可以处理更长的文本序列,这对于需要长时间依赖关系的任务尤其重要。MiniCPM3-4B通过使用LLMxMapReduce技术,MiniCPM3-4B能够有效地扩展其上下文理解能力,处理无限长的文本。该模型还具备强大的功能拓展性,如完整的system prompt function calling和code interpreter等能力,使其能够轻松连接外部工具和系统,提供更加便捷原创 2024-10-14 06:00:00 · 713 阅读 · 0 评论 -
支持超高分辨率图片生成,UltraPixel模型分享
UltraPixel模型是一种先进的超高分辨率图像合成解决方案,它通过创新的架构设计和高效的参数共享机制,成功解决了传统方法在超高分辨率图像生成领域面临的多个挑战。UltraPixel采用了一种独特的级联扩散模型结构,能够在单一模型中实现多分辨率的图像生成,从较低的1K分辨率一直到较高的6K分辨率。UltraPixel集成了一个高压缩比和对分辨率变化具有鲁棒性的自解码器,这保证了无论是在哪种分辨率下生成图像都能保持高质量。原创 2024-09-30 06:00:00 · 721 阅读 · 0 评论 -
在实时语音交互上超过GPT-4o,端到端语音模型Mini-Omni部署
Mini-Omni是一个专注于音频的端到端会话模型,能够实现实时的语音输入和流式音频输出。这意味着Mini-Omni能够在对话中同时处理语音和文本,而无需依赖额外的自动语音识别(ASR)或文本到语音(TTS)系统。Mini-Omni模型采用了一种文本指导的语音生成方法,结合了批量并行策略,以进一步提升性能。Mini-Omni的架构通过引入适配器来增强音频处理能力,并能够并行生成文本和音频令牌。此外,模型还采用了流式解码技术,以支持实时交互。原创 2024-09-27 06:00:00 · 678 阅读 · 0 评论 -
超越sora,最新文生视频CogVideoX-5b模型分享
CogVideoX-5B 是由智谱AI开发的一款视频生成大模型,它是在先前版本CogVideoX-2B的基础上进行的重大升级。这一版本不仅提高了视频生成的质量,增强了视觉效果,而且还通过优化推理性能,降低了运行所需的硬件门槛,使得更多用户能够在现有的硬件条件下使用这一先进的技术。CogVideoX-5B模型采用了3D因果变分自编码器(3D causal VAE)和专家Transformer技术,结合文本和视频嵌入,使用3D-RoPE作为位置编码,并利用3D全注意力机制进行时空联合建模。原创 2024-09-23 06:00:00 · 737 阅读 · 0 评论 -
最新动态一致的文生视频大模型FancyVideo部署
FancyVideo是由360AI团队与中山大学联合开发的一种创新视频生成模型。FancyVideo模型基于UNet架构,旨在解决现有视频生成模型在动作连贯性和情节流畅性方面存在的问题。FancyVideo通过引入跨帧文本引导模块(Cross-frame Textual Guidance Module, CTGM)来改进现有的文本控制机制。实验结果表明,FancyVideo在EvalCrafter Benchmark上的定量评估和其他T2V模型相比,在视频生成质量、文本一致性、运动性和时序一致性方面均原创 2024-09-20 06:00:00 · 430 阅读 · 0 评论 -
最新腾讯高精度动作模仿模型MimicMotion分享
MimicMotion是由腾讯公司研发的一项可控视频生成框架,旨在生成高质量、长时序且与目标姿态相符的人体动作视频。MimicMotion通过置信度感知的姿态引导技术,可以生成任意长度的高质量视频,并且能够实现时间上的平滑过渡。MimicMotion通过使用复杂的算法确保了生成视频的质量,包括减少图像失真、提升人像手部动作的真实感等。MimicMotion 项目展示了在人工智能视频生成领域的显著进步,特别是在处理长视频和复杂动作时的能力。随着技术的不断发展和优化,预期 MimicMotion 将在动原创 2024-09-18 06:00:00 · 1081 阅读 · 0 评论 -
最新融合多模态的理解和生成的大一统transform架构,show-o模型部署
Show-o模型是一个由字节跳动和新加坡国立大学联合发布的统一多模态理解和生成模型。Show-o通过结合自回归和(离散)扩散建模,能够在不同的模态间进行灵活转换,处理视觉问答、文本到图像生成、文本引导的修复/外推等多种任务。Show-o采用了一个统一的Transformer架构来处理多模态任务,这使得模型可以在不同的任务之间共享参数,从而减少了训练成本并提高了模型的泛化能力。与传统的自回归模型相比,Show-o能够根据输入和输出的模态自适应地调整其处理方式,这种灵活性使其在处理混合模态数据时表现出色。原创 2024-09-13 06:00:00 · 580 阅读 · 0 评论 -
支持黑神话悟空的超长视频理解,Qwen2-VL多模态大模型分享
Qwen2-VL是阿里巴巴达摩院开发的一款先进的视觉多模态人工智能模型。Qwen2-VL能够处理包括图像、视频在内的多种模态数据,这意味着它不仅能够理解静态图像,还能解析动态视频内容,为更广泛的应用场景提供了可能。Qwen2-VL模型特别针对长文本和长视频的理解进行了优化,能够处理超过20分钟的视频内容,并且对于长文本也有很好的理解能力。Qwen2-VL能够读懂不同分辨率和不同长宽比的图片,在多个视觉理解基准测试中取得了全球领先的表现,如MathVista、DocVQA、RealWorldQA、MTV原创 2024-09-09 06:00:00 · 609 阅读 · 0 评论 -
支持图片和视频分割,SAM2最新分割一切大模型分享
Segment Anything Model 2 (SAM2) 是由Meta公司发布的先进图像和视频分割模型。作为Segment Anything Model (SAM) 的后续产品,SAM2 展示了在图像和视频综合对象分割方面的显著进步。SAM 2支持多种类型的提示输入,如点、边界框或掩码等, 提高了用户的交互性和模型的灵活性。除了技术上的突破,SAM2的应用前景也非常广泛。例如,在医学图像分割领域,牛津大学团队发布的Medical SAM2利用SAM 2框架,针对3D医学图像分割任务进行了优化,原创 2024-09-06 06:00:00 · 398 阅读 · 0 评论 -
微软最新轻量级、多模态Phi-3.5-vision-instruct模型部署
Phi-3.5-vision-instruct模型是一款微软推出的Phi-3.5系列模型中集成了文本和图像处理能力的多模态AI模型。Phi-3.5-vision-instruct拥有42亿参数,并支持128K Token的上下文长度,特别适合处理复杂的多帧视觉任务。Phi-3.5-vision-instruct模型在图像理解、光学字符识别、图表与表格分析,以及视频摘要等任务中表现出色,并在MMMU、MMBench和TextVQA等基准测试中展现了优异的性能。随着多模态模型的重要性日益增加,预计Phi-原创 2024-09-02 06:00:00 · 752 阅读 · 0 评论 -
最新视频合成后调优技术ExVideo模型部署
ExVideo是一种新型的视频合成模型后调优方法,其核心目标在于扩展现有视频合成模型的能力,使其能够生成更长时间的视频内容。ExVideo提出了一种新的后调优策略,使得在不对整个模型进行大规模重训的情况下,仅通过对模型中时序相关组件的微调,就能够显著增强其生成更长视频片段的能力。尽管视频长度增加,但ExVideo不会影响模型的泛化能力,即模型仍然能够生成多样化风格和分辨率的视频。ExVideo的应用场景广泛,包括影视制作、虚拟现实、社交媒体、广告行业、游戏开发、教育和培训以及数据可视化等。原创 2024-08-30 06:00:00 · 1289 阅读 · 0 评论 -
超越GPT4V,最强多模态MiniCPM-V2.6模型分享
MiniCPM-V2.6是由面壁智能开发的一款强大的端侧多模态人工智能模型,它被设计用于处理和理解多种类型的数据,如文本、图像和视频。MiniCPM-V 2.6模型以其卓越的token密度(即每个视觉token编码的像素数量)表现出色,处理180万像素图像时仅产生640个token,比大多数模型少75%。MiniCPM-V2.6在端侧性能上全面对标GPT-4V,这是OpenAI的多模态模型之一,意味着在单图、多图和视频理解等方面,MiniCPM-V2.6能够达到与GPT-4V相媲美的水平。尽管性能强大原创 2024-08-26 06:00:00 · 1033 阅读 · 0 评论 -
超越openai的whisper,最新语音理解大模型Qwen2-Audio模型部署
Qwen2-Audio是由阿里巴巴集团研发的一款大型音频语言模型。Qwen2-Audio应用技术包括多模态输入处理、预训练与微调、注意力机制、条件文本生成、编码器-解码器架构以及Transformer架构。Qwen2-Audio支持直接语音输入和多语言文本输出,具备语音聊天和音频分析两大功能,并支持超过8种语言,包括中文、英语、粤语、法语等。原创 2024-08-19 06:00:00 · 1142 阅读 · 0 评论 -
最新级联文生图技术,StableCascade模型部署
StableCascade是基于Wuerstchen架构的基于文本条件生成图像latent的扩散模型。相较于Stable Diffusion,Stable Cascade的压缩系数为42,可以将1024x1024图像编码为24x24,同时在高度压缩的latent空间中训练文本条件模型,实现了16倍的成本降低。Stable Cascade能够生成更加细腻、逼真的图像细节,无论是人物的表情、衣物的纹理还是自然景观的细微之处,都能有出色的呈现。原创 2024-08-16 06:00:00 · 941 阅读 · 0 评论 -
超越sora,最强文生视频CogVideo模型落地分享
CogVideo是由智谱AI开源的视频生成模型,它是与商业版视频生成产品“清影”同源的模型。CogVideoX-2B是CogVideoX系列中的第一个模型,拥有20亿参数,支持在单张4090显卡上进行推理,推理时的显存消耗为18GB,微调时显存消耗为40GB。CogVideoX-2B通过3D VAE在空间和时间维度上压缩视频数据,实现了高压缩率和优秀的重建质量。此外,模型还包括编码器、解码器和潜在空间正则化器,通过因果卷积机制确保信息处理的连贯性和逻辑性。原创 2024-08-12 06:00:00 · 1137 阅读 · 0 评论 -
最新虚拟试衣框架IMAGDressing模型部署
IMAGDressing是一个交互式模块化服装生成系统,旨在为用户提供高度逼真的虚拟试衣体验。这个系统不仅能够生成高质量的服装图像,而且允许用户自由编辑服装样式、颜色以及模特的姿势和背景等元素,从而提供个性化的购物体验。结合IP-Adapter和ControlNet-Pose技术,IMAGDressing能够在短时间内生成大量的虚拟试穿图像,满足大规模商业应用的需求。未来可能将IMAGDressing与AR技术结合,让消费者在实体店内通过手机摄像头实时试穿虚拟服装,增强购物体验。原创 2024-08-09 06:00:00 · 1411 阅读 · 0 评论 -
最新口型同步技术EchoMimic部署
EchoMimic是一个由蚂蚁集团开发的AI项目,主要用于生成高质量的数字人像动画。这个项目特别之处在于它能够根据人像的面部特征和音频内容来帮助人物“对口型”,即让静态的照片或者图像中的角色看起来像是在说话或唱歌,生成的视频效果既稳定又自然。EchoMimic项目通过音频驱动和面部标志点驱动的结合,解决了传统方法中存在的不稳定性和不自然性的问题。EchoMimic通过深度学习模型,实现了音频和面部标志点的双重训练,生成的动画不仅在视觉上逼真,而且在语义上与音频内容高度一致。原创 2024-08-05 06:00:00 · 2461 阅读 · 0 评论 -
个人定制化形象生成,FaceChain最新模型部署
FaceChain是由阿里巴巴达摩院推出的开源AI生成框架,专注于人物写真和个人数字形象的生成。用户只需提供一张照片,即可利用该框架生成个性化的数字形象。FaceChain-FACT是FaceChain团队推出的全新版本,它摒弃了传统的人物模型训练过程,能够直接生成zero-shot目标人像,引领AI人像生成进入了无需训练的单阶段时代。在摄影、广告、娱乐等行业,FaceChain有潜力成为一种替代传统摄影和图像编辑的服务,为客户提供快速、低成本的个性化图像制作。原创 2024-07-29 06:00:00 · 697 阅读 · 0 评论 -
支持4K高分辨率,PixArt-Sigma最新文生图落地经验
PixArt-Sigma是一个由华为诺亚方舟实验室联合多个研究机构共同开发的先进人工智能模型,专门用于文本到图像(Text-to-Image)的生成任务。PixArt-Sigma采用扩散变压器(Diffusion Transformer,DiT)架构,这是其能够高效生成高分辨率图像的关键。PixArt-Sigma模型使用了一种从弱到强的训练策略,即从较低质量的数据开始,逐步引入更高质量的数据,从而提高最终图像的质量。PixArt-Sigma在创意设计、广告、娱乐、教育和科研等多个领域都有广泛的应用前景原创 2024-07-26 06:00:00 · 969 阅读 · 0 评论 -
媲美Midjourney-v6,Kolors最新文生图模型部署
Kolors模型是由快手团队开发的一种文本到图像生成模型。Kolors模型基于Stable Diffusion框架,在海量中英文图文对数据集上进行了训练,特别在中文理解和还原方面表现出色。Kolors模型在图像生成质量、复杂提示词理解、字符文本内容渲染等方面都有优异表现,尤其擅长生成高质量、细节清晰的人像图片。此外,Kolors在人类评估中的表现超过了现有的开源模型,并在视觉吸引力方面达到了Midjourney-v6的水平。原创 2024-07-22 06:00:00 · 1263 阅读 · 0 评论 -
多语言声音克隆,CosyVoice模型最强部署
CosyVoice是由阿里通义实验室开源的先进语音合成模型,它在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现出色。CosyVoice模型支持one-shot音色克隆,仅需3~10秒的原始音频即可生成模拟音色,包括韵律、情感等细节。CosyVoice采用了超过15万小时的数据训练,支持高度拟人化的语音生成,包括富语言声音事件和多情感的高拟人语音生成。CosyVoice声音复刻服务依托大模型技术进行特征提取,完成声音的复刻,无需训练过程,在个性化陪伴、教育、音视频产业和智能客服等应原创 2024-07-19 06:00:00 · 5627 阅读 · 0 评论 -
SenseVoice多语言语音理解模型之最新部署落地经验
SenseVoice是一个专注于多语言语音识别、情感辨识和音频事件检测的模型。SenseVoice经过超过40万小时的数据训练,支持超过50种语言的识别,效果在某些场景下优于Whisper模型。除了基本的语音转文本功能,SenseVoice还具备情感辨识能力,能够分析说话者的情绪状态,这对于构建更加人性化的交互系统非常重要。即使在较小的模型版本SenseVoice-Small中,也能在多数数据集上超越竞争对手,这意味着它在保持高性能的同时,还兼顾了计算资源的使用效率。原创 2024-07-15 06:00:00 · 4058 阅读 · 2 评论 -
支持多语言的MeloTTS模型最新语音合成部署分享(不看后悔)
MeloTTS是一个用于文本转语音(Text-to-Speech, TTS)的框架,它被设计成高效且可定制的,允许用户训练出具有独特音色和口音的TTS模型。MeloTTS支持英语、西班牙语、法语、中文、日语和韩语等多种语言,包括不同口音的英语。MeloTTS模型在CPU上也能实现实时语音合成,具有较快的合成速度。用户可以利用MeloTTS提供的工具和指南来训练新的TTS模型,这意味着可以创造个性化的语音合成效果,比如模仿特定人的声音或创造全新的发音风格。原创 2024-07-12 06:00:00 · 1674 阅读 · 0 评论 -
首个原生自训练Anole模型详细落地经验分享
Anole模型是首个开源的自回归、原生多模态大模型,它通过创新性微调,实现了文本与图像的无缝交织。Anole模型的技术创新在于其能够通过纯粹的"token"自回归预测,无需复杂的扩散模型,即可生成文字与图像的交替序列。Anole模型使用约6,000张图像数据集进行局部微调,展示了高效的学习能力。原创 2024-07-08 06:00:00 · 824 阅读 · 1 评论 -
最强终端部署的多模态MiniCPM-V模型部署分享(不看后悔)
MiniCPM-V模型是一个强大的端侧多模态大语言模型,专为高效的终端部署而设计。目前该模型有MiniCPM-V 1.0、MiniCPM-V 2.0和MiniCPM-Llama3-V 2.5版本。原创 2024-07-05 06:00:00 · 1944 阅读 · 0 评论 -
打赢GPT-4V之多模态模型:CogVLM2最新落地经验分享
CogVLM2通过深度学习架构创新,实现了视觉、文本、语音等多模态数据的高效融合。这种融合不仅限于基本的联合表示学习,而是深入到语义层面,使得模型能够理解复杂情境下不同模态信息的关联与交互。在多项基准测试中,CogVLM2展现出了卓越的性能,包括但不限于图像描述生成、视觉问答、图文匹配及多模态对话等任务。原创 2024-06-24 22:11:02 · 953 阅读 · 0 评论 -
MuseTalk的最新唇形同步模型落地实践经验总结(不看后悔)
MuseTalk 是由腾讯音乐娱乐的 Lyra 实验室开发的一款强大的开源项目,旨在为虚拟人物提供逼真的口型动画。该项目不仅支持中文、英文和日文等多语言输入,还适用于多种应用场景,无论是短视频制作、长剧集还是教育与培训材料,都能确保高质量的唇形同步效果。原创 2024-06-21 09:01:54 · 3796 阅读 · 1 评论 -
超详细的glm-4微调过程和代码之最强落地经验总结
智谱AI的GLM-4系列模型是2024年推出的新一代大型语言模型,具有显著的性能提升,接近GPT-4的水平。GLM-4模型具备多项先进特性,包括强大的多模态处理能力和支持更长上下文输入的能力。微调技术对于GLM-4模型尤为重要,因为它允许模型在保留广泛知识和语言理解能力的同时,学习特定场景或行业的专业语言习惯、术语和要求。GLM-4模型提供了多种微调方法,包括LoRA、sift等轻量级微调技术,这些技术可以在不显著增加模型参数量的前提下,有效地调整模型权重以适应下游任务。原创 2024-06-14 20:47:18 · 3488 阅读 · 3 评论 -
基于LLM+TTS+Lip-Sync的流式数字人的问答系统框架
本文概述了一个结合最新技术的流式数字人问答系统框架,该系统融合LLM模型以处理复杂问题并生成回答,TTS技术将文本转为自然语音,以及Lip-Sync技术同步唇形动画以实现类似真人的互动体验。关键组件包括:1) LLM模型如Mistral 7B、ChatGLM-6B等,擅长处理多样文本任务;2) TTS模型如PaddleSpeech、Parler-TTS,致力于生成流畅语音;3) Lip-Sync模型如Wav2Lip、MuseTalk,专注于唇部及面部表情的逼真同步。原创 2024-06-03 15:12:43 · 2236 阅读 · 0 评论