自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

CherryXieのblog

Modest

原创国内常用的镜像源（软件、torch、模型国内安装）

【代码】国内常用的镜像源。

2024-12-18 08:45:00 3839

原创 JWT的实现及其适用场景

JWT（全称JSON Web Token）是一种开放标准（RFC 7519），它定义了一种紧凑且自包含的方式，用于作为JSON对象在各方之间安全地传输信息。此信息是经过数字签名的，因此可以验证和信任。JWT可以使用秘密（使用HMAC算法）或使用RSA或ECDSA的公钥/私钥对进行签名。虽然JWT可以加密，也可以在各方之间提供保密性，但我们将专注于签名代币。签名令牌可以验证其中包含的声明的完整性，而加密令牌则向其他方隐藏这些声明。当使用公钥/私钥对对令牌进行签名时，签名还证明只有持有私钥的一方才是签名方。

2024-03-22 14:30:21 2594

原创阿里发布数字人模型echomimic_v3,在视频合成的基础上支持prompt输入～

EchoMimicV3 的目标是通过一个轻量级模型实现“更快、更高质量、更高泛化能力、统一多任务支持”的目标，灵感来源于奥林匹克格言“更快、更高、更强——共同努力”。它通过创新的训练策略和架构设计，在保持高效的同时，提供与大模型相当的性能。

2025-08-11 21:57:30 1763

原创阿里发布扩散模型Wan VACE，全面支持生图、生视频、图像编辑，适配低显存～

Wan2.1-VACE 是一款于2025年5月14日发布的综合视频生成与编辑模型，旨在统一处理视频生成和编辑任务，解决时间和空间维度上的一致性问题。该模型支持多种任务，如参考到视频生成（R2V）、视频到视频编辑（V2V）和遮罩视频到视频编辑（MV2V），并提供如Move-Anything、Swap-Anything等功能。其创新特点包括多语言文本生成、高效视频处理、硬件兼容性以及开源与社区支持。模型提供1.3B和14B两个版本，分别适用于480P和720P分辨率，核心架构基于扩散变换器和T5编码器，支持多语

2025-05-21 21:37:46 2129

原创腾讯开源数字人模型DICE- TALK，支持情绪控制，效果还可以哦～

DICE-Talk 的全称是“Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation”，其核心目标是解决当前情感化说话头像生成（Emotional Talking Head Generation, ETHG）领域的三大挑战：音频情感线索的利用不足：现有方法未能充分利用音频中固有的情感信息，导致生成的头像情感表达不够丰富。

2025-05-19 21:38:01 1114

原创字节跳动开源通用图像定制模型DreamO,支持风格转换、换衣、身份定制、多条件组合等多种功能～

图像定制是一个快速发展的领域，包括身份（ID）、风格、服装试穿（Try-On）等多种任务。现有研究表明，大规模生成模型在这些任务上表现出色，但大多数方法是任务特定的，难以推广到其他定制类型。例如，身份定制可能专注于面部特征，而风格转换则关注整体视觉效果。这种任务隔离限制了模型在实际应用中的灵活性，尤其是当需要同时处理多种条件（如同时改变面部和服装）时。DreamO的开发背景正是为了填补这一空白。

2025-05-18 21:07:11 812

原创腾讯开源实时语音大模型VITA-audio，92mstoken极速响应，支持多语言～

VITA-Audio 是一个由腾讯优图实验室（Tencent Youtu Lab）、南京大学和厦门大学的研究人员共同开发的项目，旨在解决现有语音模型在流式生成（streaming）场景下生成第一个音频令牌（token）时的高延迟问题。这种延迟在实时应用中（如语音助手、实时语音翻译）是一个显著的瓶颈，限制了模型的部署和实际应用。

2025-05-15 22:22:14 1452

原创 Myshell与清华联合开源TTS模型OpenVoiceV2,多语言支持，风格控制进一步增强～

OpenVoice2 由 MyShell AI（加拿大 AI 初创公司）与 MIT 和清华大学的研究人员合作开发，技术报告于 2023 年 12 月发布，V2 版本于 2024 年 4 月发布。项目目标是提供一个高效、灵活的语音克隆工具，支持从短音频片段（如几秒钟语音）中克隆高保真声音，填补商业语音克隆 API 的性能和成本差距。

2025-05-14 22:15:13 1168

原创腾讯发布数字人框架MuseTalk 1.5，开放训练逻辑，生成效果进一步优化～

MuseTalk 是一个开源模型，发布在 GitHub 和 Hugging Face ，支持与 MuseV 结合，形成完整的虚拟人类生成解决方案。它在 NVIDIA Tesla V100 上实现 30fps+ 的实时推理，处理多种语言音频（如中文、英文、日语），并通过 UNet 架构和 HDTF 数据集训练。

2025-05-13 22:10:38 2036

原创阶跃AI 发布指令编辑模型Step1X-Edit，效果很不错，真言出法随～

Step1X-Edit 是一个由 Stepfun AI 团队开发的开源图像编辑模型，于 2025 年 4 月 25 日正式发布。它的目标是提供与封闭源码模型（如 GPT-4o 和 Gemini 2 Flash）相媲美的性能，填补开源模型与这些先进模型之间的性能差距。该项目旨在通过开源方式使高级图像编辑技术更易于被开发者使用，支持各种编辑任务，如对象移除、背景替换和风格改变。它还引入了 GEdit-Bench 基准测试，基于真实用户需求评估性能，吸引了 AI 社区的广泛关注。

2025-05-12 22:37:35 784

原创沐言智语开源Muyan-TTS模型，词错率、语音质量评分都处于开源模型的一线水平，推理速度相当快～

Muyan-TTS 的开发背景源于对现有LLM-based TTS模型的局限性的认识。研究表明，这些模型通常缺乏开源的训练代码和高效的推理加速框架，限制了其可访问性和适应性。此外，播客作为一种高需求的语音交互应用，缺乏专门优化的TTS模型。为此，Muyan-TTS 团队在50,000美元的预算内开发了一个开源、可训练的TTS模型，特别针对播客场景设计。

2025-05-11 21:03:36 1299

原创浙大与哈佛联合开源图像编辑模型IC-Edit,实现高效、精准、快速的指令编辑～

ICEdit（In-Context Edit）由浙江大学团队开发，旨在通过自然语言指令实现高效、精准的图像编辑，降低对大规模训练数据和计算资源的需求。传统图像编辑方法（如基于微调的扩散模型或无训练技术）面临以下问题：微调方法：需要大量数据（数百万张图像）和计算资源（高性能 GPU），成本高且耗时。无训练技术：指令理解能力有限，编辑质量不稳定，尤其在复杂任务中。

2025-05-08 20:15:28 1569

原创阿里联合北大开源数字人项目FantasyTalking，输出内容更加动态化～

FantasyTalking 的核心目标是从单一静态图像、音频（以及可选的文本提示）生成高保真、连贯一致的说话肖像。研究表明，现有方法在生成可动画化头像时面临多重挑战，包括难以捕捉细微的面部表情、整体身体动作以及动态背景的协调性。该项目旨在解决这些问题，通过先进的 AI 技术实现更高质量的生成。

2025-05-07 20:47:09 1464

原创 huggingface 热门开源TTS模型Dia-1.6B，支持多人对话生成、情感控制～

Dia-1.6B 的开发始于 Nari Labs，这是一个由两名研究工程师 Toby Kim 和 Jay 组成的小团队。他们的灵感来源于 NotebookLM 的播客功能，但发现其声音和内容在长期使用中显得重复，因此决定开发一个能生成更自然人类对话的 TTS 模型。尽管团队在语音模型领域没有经验，他们通过自学掌握了大规模训练和音频标记化等技术，并在约三个月内完成了模型训练。

2025-05-06 20:45:05 1467

原创阿里开源Qwen3,32B模型媲美满血deepseek-r1,大模型竞争进一步加速～

Qwen3 是阿里云开发的大型语言模型家族的一部分，Qwen 系列最初于 2023 年发布，经历了多次迭代，包括 Qwen1、Qwen2 和最新版 Qwen3。Qwen3 于 2025 年 4 月 29 日临晨正式发布，阿里强势开源Qwen3,并一次放出八款同系列模型。标志着阿里巴巴在 AI 领域的又一里程碑。

2025-05-05 14:41:29 2323

原创清华与智谱联合发布TTS模型GLM-4-Voice，支持情绪、语气控制，多语言，实时效果很不错～

GLM-4-Voice是由清华大学知识工程组（Tsinghua KEG）和智谱AI（Zhipu AI）联合开发的一个开源端到端语音对话模型，旨在推动语音交互技术的进步，弥合机器与人类自然对话之间的差距。

2025-04-29 20:43:48 1600

原创阿里开源图生动画模型AnimateAnyone2

近年来，基于扩散模型（diffusion models）的人物图像动画化方法取得了显著进展，例如 Animate Anyone 在生成一致性和泛化性方面表现优异。然而，这些方法在处理人物与环境之间的空间关系和人-物体交互（human-object interaction）时存在局限性，生成的动画往往无法自然融入环境上下文。例如，人物动作可能与环境不协调，缺乏合理的互动性。

2025-04-28 19:14:53 1071 1

原创字节跳动开源数字人模型latentsync1.5,性能、质量进一步优化～

LatentSync1.5 是由 ByteDance 开发的一款先进的 AI 模型，专门针对视频唇同步（lip synchronization）任务设计，旨在实现音频与视频唇部动作的高质量、自然匹配。随着 AI 技术的快速发展，视频生成和编辑的需求在多个领域（如影视制作、虚拟现实、游戏开发）日益增长，高精度的唇同步技术成为关键需求之一。传统的唇同步方法通常依赖复杂的中间表示，例如 3D 面部模型或关键点检测，这些方法不仅计算成本高昂，而且在复杂场景下的表现往往不够理想。

2025-04-26 21:20:57 1511

原创清华大学联合vast ai开源3D骨骼化框架UniRig，自动绑定效果超赞～

UniRig 的开发背景源于 3D 动画和内容创作领域的实际需求。随着元宇宙、游戏开发和数字内容生产的快速发展，3D 模型的需求呈爆炸式增长。然而，骨骼绑定（rigging）——为 3D 模型创建骨骼并分配蒙皮权重——是一个复杂且耗时的过程，通常需要专业技能和大量手工操作。例如，手动绑定一个复杂模型可能需要数小时甚至数天，且对非标准拓扑（如动物或无机物）尤其困难。

2025-04-24 18:17:38 2198

原创阿里开源图片驱动数字人框架EMO2，新增视频输入

EMO2（End-Effector Guided Audio-Driven Avatar Video Generation）是由HumanAIGC团队开发的一个音频驱动的人像视频生成框架，旨在生成富有表现力的面部表情和手势动作的肖像视频。该项目扩展了原EMO（Emote Portrait Alive）项目，增加了手部动作生成功能，显著提升了视频的真实性和动态感。本报告从项目背景、技术架构和性能表现等方面进行详细分析，结合相关技术报告提供全面见解。

2025-04-23 20:52:35 1289

原创阿里HumanAIGC 团队开源实时数字人项目ChatAnyone

ChatAnyone 是一个由 HumanAIGC 团队开发的开源项目，专注于从单张肖像照片和音频生成实时风格化的上半身动画视频。该项目发布于 2025 年，论文《ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model》由 Jinwei Qi 等人在 ArXiv 上发表，进一步阐述了其技术细节。

2025-04-20 20:24:20 1799

原创 CyberAgentAILab 开源数字人项目TANGO，heygen的开源版来了～

TANGO 是 CyberAgentAILab 开源的一项前沿研究成果，其初衷在于探索高效生成模型在实际应用场景中的表现。项目诞生于 CyberAgent 在整合创意与人工智能的实践中，旨在为数字内容生成、交互和实时渲染等领域提供一个高性能、模块化、可扩展的解决方案。应用场景：该项目既可以用于生成高保真图像或视频，也可以作为数字人、虚拟主播等多媒体内容的生成引擎，为用户提供实时交互体验。

2025-04-17 20:49:04 594

原创复旦大学、百度联合开源数字人项目hallo2,支持高分辨率（可达4K）、长视频生成（最多1小时）

hallo2是一个由复旦大学、百度公司和南京大学的研究团队共同开发的开源项目，专注于音频驱动的肖像图像动画生成技术。该项目于2024年10月首次在ArXiv上发布论文，并于2025年1月被国际机器学习会议ICLR 2025接收，标志着其在学术界的重要地位。hallo2旨在突破现有方法在时长和分辨率上的限制，为娱乐、教育和虚拟现实等领域提供创新解决方案。

2025-04-16 20:53:28 2041

原创开源TTS项目GPT-SoVITS，支持跨语言合成、支持多语言～

GPT-SoVITS 是一个开源的文本转语音（TTS）项目，旨在通过少量语音数据实现高质量的语音合成。其核心理念是将基于变换器的模型（如 GPT）与语音合成技术（如 SoVITS，可能指“唱歌语音合成”）结合，特别适合需要个性化语音但数据有限的场景。

2025-04-15 20:29:55 812

原创实时语音交互数字人VideoChat,可自定义形象与音色，支持音色克隆，首包延迟低至3s

实时语音交互数字人，支持端到端语音方案（GLM-4-Voice - THG）和级联方案（ASR-LLM-TTS-THG）。用户可通过麦克风或文本输入，与数字人进行语音或视频交互。

2025-04-14 21:28:01 624

原创阿里通义实验室发布图片数字人项目LAM，实现高保真重建

LAM项目结合了3D Gaussian Splatting（高斯点云渲染）和大规模预训练模型的优势，解决了传统头部重建方法效率低、依赖多数据的痛点。其背景源于AI生成内容（AIGC）领域对实时、高保真3D头像生成的需求，尤其是在虚拟现实、游戏、虚拟主播等场景中。

2025-04-13 20:40:16 1803

原创实时交互数字人项目LiveTalking，支持数字人训练、克隆、全身，已支持mac gpu~

目标：LiveTalking 致力于构建一个实时互动的数字人系统，能够实现音视频同步对话，支持直播、在线教育、虚拟客服等多种场景。核心特点：** 实时性：通过流式传输技术（RTMP 或 WebRTC）实现低延迟的音视频互动。** 多模型支持：集成了多种数字人模型，包括 ER-NeRF、MuseTalk、Wav2Lip 和 Ultralight-Digital-Human。** 支持语音克隆** 支持在数字人说话时打断它** 支持全身视频拼接** 支持rtmp和webrtc。

2025-04-10 20:38:52 5227 2

原创阿里发布实时数字人项目OmniTalker，实时驱动技术再突破～

OmniTalker 是一个由阿里巴巴集团 Tongyi Lab（通义实验室）开发的研究项目，专注于实时文本驱动的说话头像生成技术。该项目旨在通过文本输入生成同步的语音和视频内容，同时保留参考视频中的音视频风格。

2025-04-09 21:15:52 1811

原创 2noise团队开源ChatTTS，支持多语言、流式合成、语音的情感、停顿和语调控制

ChatTTS 是一个开源的文本转语音（Text-to-Speech, TTS）项目，由 2noise 团队开发，专门为对话场景设计。它在 GitHub 上广受欢迎，因其自然流畅的语音合成能力和多功能性而备受关注。

2025-04-08 21:02:52 1440

原创 maskgct 的升级版Metis,支持情感控制、语速调节和音色转换、扩展性进一步增强

Metis 是 MaskGCT 的升级版，由香港中文大学（深圳）和广州趣丸网络科技有限公司联合开发，作为 Amphion 开源平台的一部分进一步推进了语音生成技术的研究和应用。相比 MaskGCT，Metis 在功能、性能和任务支持上都有显著提升，旨在成为一个统一的、多任务的语音生成基础模型。

2025-04-07 19:34:32 995

原创上交大开源TTS模型F5-TTS -V1，性能进一步提升，且适配各种设备

F5-TTS（全称 “F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching”）是一个由上海交通大学等机构的研究团队开发的高效文本转语音（TTS）系统。该项目的背景植根于语音合成领域的最新发展趋势，特别是非自回归模型的兴起以及对高效、高质量语音生成的需求。2025/03/12 🔥 F5-TTS 更新了V1版本模型。

2025-04-02 09:34:56 2256

原创可实时交互二次元数字人VirtualWife，支持模型替换、大模型接入，适配直播、聊天助手等场景！

VirtualWife是一个虚拟数字人项目，项目还处于孵化阶段，有很多需要优化的地方，作者想打造一个拥有自己“灵魂”的虚拟数字人，你可以像朋友一样和她相识，作者希望虚拟数字人融入人类生活，作为恋爱导师，心理咨询师，解决人类的情感需求。

2025-03-30 10:21:34 572 1

原创阿里发布全模态模型Qwen2.5-Omni，支持文本、图像、音频和视频输入，且支持实时响应！

Qwen2.5-Omni 是 Qwen 系列的最新多模态模型，由阿里巴巴云 Qwen 团队开发，用户查询其项目背景，本报告基于 2025 年 3 月 27 日的最新信息（包括 GitHub、Hugging Face 和 X 上的讨论），从研发动机、团队背景、开发过程和目标等角度进行详细分析。

2025-03-28 07:50:54 1413

原创 B站开源TTS模型index-tts,超越 CosyVoice2、Fish-Speech 和 F5-TTS 等模型

IndexTTS 是 B 站（哔哩哔哩）推出的一款文本转语音（TTS）系统，基于开源项目 XTTS 和 Tortoise 开发，并针对中文语音合成的特定需求进行了优化。用户查询其研发背景和架构原理，本报告基于 2025 年 3 月 24 日的最新信息（结合 X 上的讨论和假设的官方背景），从研究背景、技术架构和创新点等角度进行详细分析。

2025-03-27 17:50:09 8853

原创阿里开源半身驱动数字人EchoMimicV2，全身指日可待～

EchoMimicV2 是 EchoMimic 的第二代版本，专注于音频驱动的半身人物动画生成，由蚂蚁集团团队开发，已被 CVPR 2025 接受。用户查询其研发背景和架构原理，本报告基于 2025 年 3 月 24 日的最新信息，从研究背景、技术架构和创新点等角度进行详细分析。

2025-03-26 08:15:00 1839

原创 DeepSeek-V3深夜更新，代码能力直逼claude3.7-sonnet!

685B的DeepSeek-V3新版本，就在昨夜悄悄上线了。参数量685B的V3，代码数学推理再次显著提升，甚至代码追平Claude 3.7，网友们实测后大呼强到离谱！有人预测说，按照此前的节奏，DeepSeek-R2大概率几周内就将上线。

2025-03-25 20:27:00 791

原创京东与浙江大学联合开源数字人项目JoyVASA，支持人与动物的面部驱动！

JoyVASA 是由京东健康（JD Health International Inc.）与浙江大学联合研发的音频驱动面部动画技术。项目旨在通过结合音频信号与扩散模型，生成高精度唇形同步及自然头部运动的面部动画，解决传统方法中视频质量低、同步性。

2025-03-25 09:23:03 603

原创一体化AI应用AnythingLLM，与你的文档聊天，使用AI代理，超可配置

前端：一个viteJS+React前端，您可以运行它来轻松创建和管理LLM可以使用的所有内容。server：一个NodeJS express服务器，用于处理所有交互，并执行所有vectorDB管理和LLM交互。collector：NodeJS表示服务器，用于处理和解析来自UI的文档。docker：docker指令和构建过程+从源代码构建的信息。embed:用于生成和创建web嵌入小部件的子模块。浏览器扩展：chrome浏览器扩展的子模块。

2025-03-24 19:55:02 583

原创俄罗斯妹子开源的桌面女友应用，支持自定义！

图像头像：使用情感套件，通过静态图像集合展示角色的情感。Live2D 模型：集成动画 Live2D 模型，享受沉浸式、视觉丰富的沟通体验。

2025-03-23 20:29:19 723

原创 Ollama、DeepSeek、dify，企业级的知识库本地部署方案！

Ollama 是一个跨平台的轻量级工具，旨在本地运行大型语言模型（LLM），如 DeepSeek、Llama 和 Mistral。它提供了一键式模型部署，适合需要数据隐私和本地控制的用户。DeepSeek 是一个开源的 LLM，特别适合需要强推理能力的应用，而 Dify 是一个开源的 AI 应用开发平台，支持与本地部署的模型集成，构建复杂的 AI 应用，如聊天机器人或工作流自动化。研究表明，这种组合特别适合企业或个人用户，追求完全离线运行以消除数据泄露风险，并确保数据资产的完全控制。

2025-03-21 09:40:10 1211

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

博客等级

码龄8年

301
原创

4213
点赞

2879
收藏

7263
粉丝

关注

私信

热门文章

分类专栏

最新评论

可实时交互二次元数字人VirtualWife，支持模型替换、大模型接入，适配直播、聊天助手等场景！
胡智昂: 这个项目的数字人似乎还不能说话是吗？
实时交互数字人项目LiveTalking，支持数字人训练、克隆、全身，已支持mac gpu~
sinat_34385907: 请问livetalking在阿里云得docker里报Traceback (most recent call last): File "/nerfstream/app.py", line 30, in <module> import torch.multiprocessing as mp File "/root/miniconda3/envs/nerfstream/lib/python3.10/site-packages/torch/__init__.py", line 229, in <module> from torch._C import * # noqa: F403 ImportError: /root/miniconda3/envs/nerfstream/lib/python3.10/site-packages/torch/lib/libtorch_cpu.so: undefined symbol: iJIT_NotifyEvent，可是我GPU服务器得CUDA是12.8
分布式爬虫之Scrapy
北风之神c: 总结的很全面的scrapy爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。依托于funboost的强大可视化管理，不登录机器可以轻松掌控分布式大规模爬虫运行状态，一目了然。可视化截图： https://funboost.readthedocs.io/zh-cn/latest/articles/c13.html 夫天下爬虫，当顺天命。Scrapy十败如山崩，Funboost十胜如日升。
阿里开源图生动画模型AnimateAnyone2
2301_80120905: 能支持多人驱动吗
huggingface cli 下载space内对应的项目
aswordok: 如果只下载spaces下的某个目录，如何写命令？

提示

确定要删除当前文章？

取消删除