
人工智能
文章平均质量分 79
一些AI相关技术栈以及方法论的知识点记录
Cherry Xie
喜欢学习,只是因为知识能让我更好地理解与处理遇到的事情。技术上比较全面,具备小程序、全栈、web3、数据分析、人工智能的开发经验。目前从事人工智能相关工作,欢迎知识理解上的交流。
展开
-
字节跳动开源通用图像定制模型DreamO,支持风格转换、换衣、身份定制、多条件组合等多种功能~
图像定制是一个快速发展的领域,包括身份(ID)、风格、服装试穿(Try-On)等多种任务。现有研究表明,大规模生成模型在这些任务上表现出色,但大多数方法是任务特定的,难以推广到其他定制类型。例如,身份定制可能专注于面部特征,而风格转换则关注整体视觉效果。这种任务隔离限制了模型在实际应用中的灵活性,尤其是当需要同时处理多种条件(如同时改变面部和服装)时。DreamO的开发背景正是为了填补这一空白。原创 2025-05-18 21:07:11 · 271 阅读 · 0 评论 -
腾讯开源实时语音大模型VITA-audio,92mstoken极速响应,支持多语言~
VITA-Audio 是一个由腾讯优图实验室(Tencent Youtu Lab)、南京大学和厦门大学的研究人员共同开发的项目,旨在解决现有语音模型在流式生成(streaming)场景下生成第一个音频令牌(token)时的高延迟问题。这种延迟在实时应用中(如语音助手、实时语音翻译)是一个显著的瓶颈,限制了模型的部署和实际应用。原创 2025-05-15 22:22:14 · 763 阅读 · 0 评论 -
Myshell与清华联合开源TTS模型OpenVoiceV2,多语言支持,风格控制进一步增强~
OpenVoice2 由 MyShell AI(加拿大 AI 初创公司)与 MIT 和清华大学的研究人员合作开发,技术报告于 2023 年 12 月发布 ,V2 版本于 2024 年 4 月发布。项目目标是提供一个高效、灵活的语音克隆工具,支持从短音频片段(如几秒钟语音)中克隆高保真声音,填补商业语音克隆 API 的性能和成本差距。原创 2025-05-14 22:15:13 · 701 阅读 · 0 评论 -
腾讯发布数字人框架MuseTalk 1.5,开放训练逻辑,生成效果进一步优化~
MuseTalk 是一个开源模型,发布在 GitHub 和 Hugging Face ,支持与 MuseV 结合,形成完整的虚拟人类生成解决方案。它在 NVIDIA Tesla V100 上实现 30fps+ 的实时推理,处理多种语言音频(如中文、英文、日语),并通过 UNet 架构和 HDTF 数据集训练。原创 2025-05-13 22:10:38 · 517 阅读 · 0 评论 -
阶跃AI 发布指令编辑模型Step1X-Edit,效果很不错,真言出法随~
Step1X-Edit 是一个由 Stepfun AI 团队开发的开源图像编辑模型,于 2025 年 4 月 25 日正式发布。它的目标是提供与封闭源码模型(如 GPT-4o 和 Gemini 2 Flash)相媲美的性能,填补开源模型与这些先进模型之间的性能差距。该项目旨在通过开源方式使高级图像编辑技术更易于被开发者使用,支持各种编辑任务,如对象移除、背景替换和风格改变。它还引入了 GEdit-Bench 基准测试,基于真实用户需求评估性能,吸引了 AI 社区的广泛关注。原创 2025-05-12 22:37:35 · 574 阅读 · 0 评论 -
沐言智语开源Muyan-TTS模型,词错率、语音质量评分都处于开源模型的一线水平,推理速度相当快~
Muyan-TTS 的开发背景源于对现有LLM-based TTS模型的局限性的认识。研究表明,这些模型通常缺乏开源的训练代码和高效的推理加速框架,限制了其可访问性和适应性。此外,播客作为一种高需求的语音交互应用,缺乏专门优化的TTS模型。为此,Muyan-TTS 团队在50,000美元的预算内开发了一个开源、可训练的TTS模型,特别针对播客场景设计。原创 2025-05-11 21:03:36 · 788 阅读 · 0 评论 -
浙大与哈佛联合开源图像编辑模型IC-Edit,实现高效、精准、快速的指令编辑~
ICEdit(In-Context Edit)由浙江大学团队开发,旨在通过自然语言指令实现高效、精准的图像编辑,降低对大规模训练数据和计算资源的需求。传统图像编辑方法(如基于微调的扩散模型或无训练技术)面临以下问题:微调方法:需要大量数据(数百万张图像)和计算资源(高性能 GPU),成本高且耗时。无训练技术:指令理解能力有限,编辑质量不稳定,尤其在复杂任务中。原创 2025-05-08 20:15:28 · 881 阅读 · 0 评论 -
阿里联合北大开源数字人项目FantasyTalking,输出内容更加动态化~
FantasyTalking 的核心目标是从单一静态图像、音频(以及可选的文本提示)生成高保真、连贯一致的说话肖像。研究表明,现有方法在生成可动画化头像时面临多重挑战,包括难以捕捉细微的面部表情、整体身体动作以及动态背景的协调性。该项目旨在解决这些问题,通过先进的 AI 技术实现更高质量的生成。原创 2025-05-07 20:47:09 · 829 阅读 · 0 评论 -
huggingface 热门开源TTS模型Dia-1.6B,支持多人对话生成、情感控制~
Dia-1.6B 的开发始于 Nari Labs,这是一个由两名研究工程师 Toby Kim 和 Jay 组成的小团队。他们的灵感来源于 NotebookLM 的播客功能,但发现其声音和内容在长期使用中显得重复,因此决定开发一个能生成更自然人类对话的 TTS 模型。尽管团队在语音模型领域没有经验,他们通过自学掌握了大规模训练和音频标记化等技术,并在约三个月内完成了模型训练。原创 2025-05-06 20:45:05 · 800 阅读 · 0 评论 -
阿里开源Qwen3,32B模型媲美满血deepseek-r1,大模型竞争进一步加速~
Qwen3 是阿里云开发的大型语言模型家族的一部分,Qwen 系列最初于 2023 年发布,经历了多次迭代,包括 Qwen1、Qwen2 和最新版 Qwen3。Qwen3 于 2025 年 4 月 29 日临晨正式发布,阿里强势开源Qwen3,并一次放出八款同系列模型。标志着阿里巴巴在 AI 领域的又一里程碑。原创 2025-05-05 14:41:29 · 1111 阅读 · 0 评论 -
清华与智谱联合发布TTS模型GLM-4-Voice,支持情绪、语气控制,多语言,实时效果很不错~
GLM-4-Voice是由清华大学知识工程组(Tsinghua KEG)和智谱AI(Zhipu AI)联合开发的一个开源端到端语音对话模型,旨在推动语音交互技术的进步,弥合机器与人类自然对话之间的差距。原创 2025-04-29 20:43:48 · 768 阅读 · 0 评论 -
阿里开源图生动画模型AnimateAnyone2
近年来,基于扩散模型(diffusion models)的人物图像动画化方法取得了显著进展,例如 Animate Anyone 在生成一致性和泛化性方面表现优异。然而,这些方法在处理人物与环境之间的空间关系和人-物体交互(human-object interaction)时存在局限性,生成的动画往往无法自然融入环境上下文。例如,人物动作可能与环境不协调,缺乏合理的互动性。原创 2025-04-28 19:14:53 · 677 阅读 · 0 评论 -
字节跳动开源数字人模型latentsync1.5,性能、质量进一步优化~
LatentSync1.5 是由 ByteDance 开发的一款先进的 AI 模型,专门针对视频唇同步(lip synchronization)任务设计,旨在实现音频与视频唇部动作的高质量、自然匹配。随着 AI 技术的快速发展,视频生成和编辑的需求在多个领域(如影视制作、虚拟现实、游戏开发)日益增长,高精度的唇同步技术成为关键需求之一。传统的唇同步方法通常依赖复杂的中间表示,例如 3D 面部模型或关键点检测,这些方法不仅计算成本高昂,而且在复杂场景下的表现往往不够理想。原创 2025-04-26 21:20:57 · 659 阅读 · 0 评论 -
清华大学联合vast ai开源3D骨骼化框架UniRig,自动绑定效果超赞~
UniRig 的开发背景源于 3D 动画和内容创作领域的实际需求。随着元宇宙、游戏开发和数字内容生产的快速发展,3D 模型的需求呈爆炸式增长。然而,骨骼绑定(rigging)——为 3D 模型创建骨骼并分配蒙皮权重——是一个复杂且耗时的过程,通常需要专业技能和大量手工操作。例如,手动绑定一个复杂模型可能需要数小时甚至数天,且对非标准拓扑(如动物或无机物)尤其困难。原创 2025-04-24 18:17:38 · 915 阅读 · 0 评论 -
阿里开源图片驱动数字人框架EMO2,新增视频输入
EMO2(End-Effector Guided Audio-Driven Avatar Video Generation)是由HumanAIGC团队开发的一个音频驱动的人像视频生成框架,旨在生成富有表现力的面部表情和手势动作的肖像视频。该项目扩展了原EMO(Emote Portrait Alive)项目,增加了手部动作生成功能,显著提升了视频的真实性和动态感。本报告从项目背景、技术架构和性能表现等方面进行详细分析,结合相关技术报告提供全面见解。原创 2025-04-23 20:52:35 · 925 阅读 · 0 评论 -
阿里HumanAIGC 团队开源实时数字人项目ChatAnyone
ChatAnyone 是一个由 HumanAIGC 团队开发的开源项目,专注于从单张肖像照片和音频生成实时风格化的上半身动画视频。该项目发布于 2025 年,论文《ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model》由 Jinwei Qi 等人在 ArXiv 上发表,进一步阐述了其技术细节。原创 2025-04-20 20:24:20 · 1030 阅读 · 0 评论 -
CyberAgentAILab 开源数字人项目TANGO,heygen的开源版来了~
TANGO 是 CyberAgentAILab 开源的一项前沿研究成果,其初衷在于探索高效生成模型在实际应用场景中的表现。项目诞生于 CyberAgent 在整合创意与人工智能的实践中,旨在为数字内容生成、交互和实时渲染等领域提供一个高性能、模块化、可扩展的解决方案。应用场景:该项目既可以用于生成高保真图像或视频,也可以作为数字人、虚拟主播等多媒体内容的生成引擎,为用户提供实时交互体验。原创 2025-04-17 20:49:04 · 344 阅读 · 0 评论 -
复旦大学、百度联合开源数字人项目hallo2,支持高分辨率(可达4K)、长视频生成(最多1小时)
hallo2是一个由复旦大学、百度公司和南京大学的研究团队共同开发的开源项目,专注于音频驱动的肖像图像动画生成技术。该项目于2024年10月首次在ArXiv上发布论文,并于2025年1月被国际机器学习会议ICLR 2025接收,标志着其在学术界的重要地位。hallo2旨在突破现有方法在时长和分辨率上的限制,为娱乐、教育和虚拟现实等领域提供创新解决方案。原创 2025-04-16 20:53:28 · 1354 阅读 · 0 评论 -
开源TTS项目GPT-SoVITS,支持跨语言合成、支持多语言~
GPT-SoVITS 是一个开源的文本转语音(TTS)项目,旨在通过少量语音数据实现高质量的语音合成。其核心理念是将基于变换器的模型(如 GPT)与语音合成技术(如 SoVITS,可能指“唱歌语音合成”)结合,特别适合需要个性化语音但数据有限的场景。原创 2025-04-15 20:29:55 · 271 阅读 · 0 评论 -
实时语音交互数字人VideoChat,可自定义形象与音色,支持音色克隆,首包延迟低至3s
实时语音交互数字人,支持端到端语音方案(GLM-4-Voice - THG)和级联方案(ASR-LLM-TTS-THG)。用户可通过麦克风或文本输入,与数字人进行语音或视频交互。原创 2025-04-14 21:28:01 · 342 阅读 · 0 评论 -
阿里通义实验室发布图片数字人项目LAM,实现高保真重建
LAM项目结合了3D Gaussian Splatting(高斯点云渲染)和大规模预训练模型的优势,解决了传统头部重建方法效率低、依赖多数据的痛点。其背景源于AI生成内容(AIGC)领域对实时、高保真3D头像生成的需求,尤其是在虚拟现实、游戏、虚拟主播等场景中。原创 2025-04-13 20:40:16 · 726 阅读 · 0 评论 -
实时交互数字人项目LiveTalking,支持数字人训练、克隆、全身,已支持mac gpu~
目标:LiveTalking 致力于构建一个实时互动的数字人系统,能够实现音视频同步对话,支持直播、在线教育、虚拟客服等多种场景。核心特点:** 实时性:通过流式传输技术(RTMP 或 WebRTC)实现低延迟的音视频互动。** 多模型支持:集成了多种数字人模型,包括 ER-NeRF、MuseTalk、Wav2Lip 和 Ultralight-Digital-Human。** 支持语音克隆** 支持在数字人说话时打断它** 支持全身视频拼接** 支持rtmp和webrtc。原创 2025-04-10 20:38:52 · 855 阅读 · 0 评论 -
阿里发布实时数字人项目OmniTalker,实时驱动技术再突破~
OmniTalker 是一个由 阿里巴巴集团 Tongyi Lab(通义实验室) 开发的研究项目,专注于实时文本驱动的说话头像生成技术。该项目旨在通过文本输入生成同步的语音和视频内容,同时保留参考视频中的音视频风格。原创 2025-04-09 21:15:52 · 1245 阅读 · 0 评论 -
2noise团队开源ChatTTS,支持多语言、流式合成、语音的情感、停顿和语调控制
ChatTTS 是一个开源的文本转语音(Text-to-Speech, TTS)项目,由 2noise 团队开发,专门为对话场景设计。它在 GitHub 上广受欢迎,因其自然流畅的语音合成能力和多功能性而备受关注。原创 2025-04-08 21:02:52 · 956 阅读 · 0 评论 -
maskgct 的升级版Metis,支持情感控制、语速调节和音色转换、扩展性进一步增强
Metis 是 MaskGCT 的升级版,由香港中文大学(深圳)和广州趣丸网络科技有限公司联合开发,作为 Amphion 开源平台的一部分进一步推进了语音生成技术的研究和应用。相比 MaskGCT,Metis 在功能、性能和任务支持上都有显著提升,旨在成为一个统一的、多任务的语音生成基础模型。原创 2025-04-07 19:34:32 · 678 阅读 · 0 评论 -
上交大开源TTS模型F5-TTS -V1,性能进一步提升,且适配各种设备
F5-TTS(全称 “F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching”)是一个由上海交通大学等机构的研究团队开发的高效文本转语音(TTS)系统。该项目的背景植根于语音合成领域的最新发展趋势,特别是非自回归模型的兴起以及对高效、高质量语音生成的需求。2025/03/12 🔥 F5-TTS 更新了V1版本模型。原创 2025-04-02 09:34:56 · 1143 阅读 · 0 评论 -
可实时交互二次元数字人VirtualWife,支持模型替换、大模型接入,适配直播、聊天助手等场景!
VirtualWife是一个虚拟数字人项目,项目还处于孵化阶段,有很多需要优化的地方,作者想打造一个拥有自己“灵魂”的虚拟数字人,你可以像朋友一样和她相识,作者希望虚拟数字人融入人类生活,作为恋爱导师,心理咨询师,解决人类的情感需求。原创 2025-03-30 10:21:34 · 349 阅读 · 0 评论 -
阿里发布全模态模型Qwen2.5-Omni,支持文本、图像、音频和视频输入,且支持实时响应!
Qwen2.5-Omni 是 Qwen 系列的最新多模态模型,由阿里巴巴云 Qwen 团队开发,用户查询其项目背景,本报告基于 2025 年 3 月 27 日的最新信息(包括 GitHub、Hugging Face 和 X 上的讨论),从研发动机、团队背景、开发过程和目标等角度进行详细分析。原创 2025-03-28 07:50:54 · 764 阅读 · 0 评论 -
B站开源TTS模型index-tts,超越 CosyVoice2、Fish-Speech 和 F5-TTS 等模型
IndexTTS 是 B 站(哔哩哔哩)推出的一款文本转语音(TTS)系统,基于开源项目 XTTS 和 Tortoise 开发,并针对中文语音合成的特定需求进行了优化。用户查询其研发背景和架构原理,本报告基于 2025 年 3 月 24 日的最新信息(结合 X 上的讨论和假设的官方背景),从研究背景、技术架构和创新点等角度进行详细分析。原创 2025-03-27 17:50:09 · 2089 阅读 · 0 评论 -
阿里开源半身驱动数字人EchoMimicV2,全身指日可待~
EchoMimicV2 是 EchoMimic 的第二代版本,专注于音频驱动的半身人物动画生成,由蚂蚁集团团队开发,已被 CVPR 2025 接受。用户查询其研发背景和架构原理,本报告基于 2025 年 3 月 24 日的最新信息,从研究背景、技术架构和创新点等角度进行详细分析。原创 2025-03-26 08:15:00 · 695 阅读 · 0 评论 -
DeepSeek-V3深夜更新,代码能力直逼claude3.7-sonnet!
685B的DeepSeek-V3新版本,就在昨夜悄悄上线了。参数量685B的V3,代码数学推理再次显著提升,甚至代码追平Claude 3.7,网友们实测后大呼强到离谱!有人预测说,按照此前的节奏,DeepSeek-R2大概率几周内就将上线。原创 2025-03-25 20:27:00 · 431 阅读 · 0 评论 -
京东与浙江大学联合开源数字人项目JoyVASA,支持人与动物的面部驱动!
JoyVASA 是由 京东健康(JD Health International Inc.)与浙江大学 联合研发的音频驱动面部动画技术。项目旨在通过结合音频信号与扩散模型,生成高精度唇形同步及自然头部运动 的面部动画,解决传统方法中视频质量低、同步性。原创 2025-03-25 09:23:03 · 379 阅读 · 0 评论 -
一体化AI应用AnythingLLM,与你的文档聊天,使用AI代理,超可配置
前端:一个viteJS+React前端,您可以运行它来轻松创建和管理LLM可以使用的所有内容。server:一个NodeJS express服务器,用于处理所有交互,并执行所有vectorDB管理和LLM交互。collector:NodeJS表示服务器,用于处理和解析来自UI的文档。docker:docker指令和构建过程+从源代码构建的信息。embed:用于生成和创建web嵌入小部件的子模块。浏览器扩展:chrome浏览器扩展的子模块。原创 2025-03-24 19:55:02 · 344 阅读 · 0 评论 -
俄罗斯妹子开源的桌面女友应用,支持自定义!
图像头像:使用情感套件,通过静态图像集合展示角色的情感。Live2D 模型:集成动画 Live2D 模型,享受沉浸式、视觉丰富的沟通体验。原创 2025-03-23 20:29:19 · 479 阅读 · 0 评论 -
Ollama、DeepSeek、dify,企业级的知识库本地部署方案!
Ollama 是一个跨平台的轻量级工具,旨在本地运行大型语言模型(LLM),如 DeepSeek、Llama 和 Mistral。它提供了一键式模型部署,适合需要数据隐私和本地控制的用户。DeepSeek 是一个开源的 LLM,特别适合需要强推理能力的应用,而 Dify 是一个开源的 AI 应用开发平台,支持与本地部署的模型集成,构建复杂的 AI 应用,如聊天机器人或工作流自动化。研究表明,这种组合特别适合企业或个人用户,追求完全离线运行以消除数据泄露风险,并确保数据资产的完全控制。原创 2025-03-21 09:40:10 · 799 阅读 · 0 评论 -
开源一站式数字人项目AigcPanel,支持windows一键安装!
AigcPanel 是一个简单易用的一站式AI数字人系统,小白也可使用。支持视频合成、声音合成、声音克隆,简化本地模型管理、一键导入和使用AI模型。原创 2025-03-15 20:52:17 · 150 阅读 · 0 评论 -
open-sora2.0发布,成本显著降低、语义理解能力大幅增强!
Open-Sora官方与3月12日发布了Open Sora 2.0(11B)。🎬 11B型号在性能上与11B浑源视频和30B步进视频不相上下📐VBench&📊人类偏好。🛠️ 完全开源:开发与训练的成本仅需20万美元。原创 2025-03-15 20:51:59 · 238 阅读 · 0 评论 -
Spark TTS,基于LLM的TTS模型,支持零样本语音克隆,允许语言和语音之间的无缝转换
Spark-TTS 是基于大型语言模型(LLM)的高效文本转语音(TTS)系统。原创 2025-03-13 14:02:30 · 389 阅读 · 0 评论 -
阿里声音克隆模型cosyvoice2,支持音色预训练/3s极速克隆/自然语言控制/自动识别/音色保存
CosyVoice 2 是一个开源模型,用户可以根据硬件条件进行部署和推理。当前版本为功能扩充(预训练音色/3s极速复刻/自然语言控制/自动识别/音色保存/API),支持 Windows / Linux / MacOS。原创 2025-03-12 17:49:15 · 1163 阅读 · 0 评论 -
智谱AI开源CogView4,支持中英文,性能比肩flux!
分辨率: 长宽均需满足 512px - 2048px 之间,需被32整除, 并保证最大像素数不超过 2^21 px。精度: BF16 / FP32 (不支持FP16,会出现溢出导致纯黑图片)原创 2025-03-10 11:51:17 · 1063 阅读 · 0 评论