Zhikes-CSDN博客

原创 MOSS-TTSD: 文本对话式语音克隆

MOSS-TTSD是一款突破性的对话语音生成系统，专为提升人机交互体验而设计。基于Qwen3-1.7B-base模型优化，它支持中英双语，实现零样本音色克隆和长达960秒的连续语音生成。核心创新包括XY-Tokenizer（1kbps低比特率编码）和对话语境建模技术，经过110万小时语音数据训练。性能评估显示其词错误率低至1.90%，媲美顶尖模型。适用于播客、直播、教育等多种场景，提供本地部署方案。目前支持双人对话克隆，多人对话功能正在开发中。

2025-09-10 16:34:05 2602

原创 FLUX.Kontext 一句话P图界的神，淘汰了80％的工作流，本地部署。

Black Forest Labs 推出的 FLUX.1 Kontext Dev，以其突破性的多模态图像编辑能力，颠覆了传统工作流，基本能够淘汰 80% 的传统图像处理流程。这款拥有 120 亿参数的开源扩散变压器模型，不仅支持文本与图像的联合输入，还能智能理解图像上下文，实现前所未有的精确编辑和角色一致性。它不仅保留了 FLUX.1 Kontext 套件的全部核心能力，还提供了在本地机器运行的灵活性，免去了对云端 API 的依赖，为实验和定制化开发提供了无限可能。例如，更换人物的发型。

2025-07-11 18:08:34 2350

原创 Fish Audio 超强语音克隆：情感丰富、语速音调自由控制，本地部署教程+一键包

零样本和少样本TTS：只需输入10到30秒的语音样本，即可生成高质量的TTS输出。想了解更多？请参考语音克隆最佳实践。多语言和跨语言支持：支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。只需将文本粘贴到输入框，模型即可自动处理。无音素依赖：凭借强大的泛化能力，模型无需依赖音素即可处理任何语言脚本的文本。高准确性：在Seed-TTS Eval测试中，CER低至约0.4%，WER约为0.8%。快速推理。

2025-07-07 16:10:17 1241

原创潮了低配电脑6G显存生成60秒AI视频本地部署/一键包/云算力部署/批量生成

最近发现了一个让人眼前一亮的工具——，它能用一块普通的6GB显存笔记本GPU，生成60秒电影级的高清视频画面，效果堪称炸裂！那么我们就把他本地部署起来玩一玩、下载离线一键整合包，或者是用云算力快速上手。接下来，我带大家看看FramePack的硬核实力，以及如何用它让一张静态美女图片“舞动”起来！实际效果怎么样？先来个小实验！想生成一段高质量视频，起点自然是一张高质量图片。你可以先用Stable Diffusion 或者 Midjourney生成了一张精美的美女写实图片。

2025-04-25 11:34:30 3070 3

原创抄了AI语音克隆的家本地部署、6G显存搞定、一键启动包、支持win10/win11

只需要一段语音样本+你的文案，就能直接生成克隆后的语音。比起CosyVoice还得额外输入语音对应的文本，Index-TTS直接省掉这一步，简单到飞起，操作更人性化。工业级可控高效零样本文本转语音系统。Spark-TTS是基于大型语言模型（LLM）的文本转语音系统，简单高效又自然，兼顾研究和生产需求。

2025-04-03 23:08:17 1607 1

原创一套低成本、高质量的替代AI数字人/唇形同步方案，AI数字人/唇形同步技术揭秘：高价项目值不值，你被“割”了吗？

通过以上三个步骤，你可以用几乎零成本的方式制作出高质量的唇形同步视频。相比市面上动辄数千元的服务，这种方法不仅省钱，还能让你掌握核心技术，灵活应对各种需求。所有提到的工具（如 CosyVoice2、LatentSync 一键包、FaceFusion）在我的星球内都免费提供，欢迎加入交流！后面考虑将这几个AI技术都融合起来，做一个支持批量的数字人工具供大家使用。在 AI 技术飞速发展的今天，我们完全没必要为一些“包装精美”的服务掏空钱包。

2025-04-01 14:19:44 888

原创 AI数字人：口播与唇形同步的福音，支持本地部署/批量生成/口齿清晰

你也可以直接输入语音，虚拟化身会根据语音的节奏和语调，同步做出相应的动作和表情，表现更加生动。不过这依然是个值得关注的工具。借助先进的 AI 算法，Heygem 高精度捕捉五官、轮廓等特征，构建逼真的虚拟模型。同时，它还能克隆语音，捕捉人声的细微特征，支持多种语音参数设置，打造高度相似的音色效果。打开设置，调整镜像存储位置，镜像文件比较大70~80G，选择合适的盘，设置完成后点击“Apply & Restart”。数字人视频画面与声音高度同步，口型匹配自然流畅，智能优化音视频效果，带来极佳的视听体验。

2025-03-14 10:27:52 5248 2

原创从家用显卡到AI文生视频——Wan2.1本地部署教程与一键包分享

今天要聊一聊AI文生视频的最新进展。一直以来，AI生成视频对硬件的要求都让人望而却步，尤其是家用显卡，总是感觉“心有余而力不足”。AI文生视频以前基本需要的显存大概几十上百G但最近，阿里开源的彻底改变了这一局面！它不仅让普通消费级GPU也能轻松生成视频，还能在短短10分钟左右搞定一段480P的视频。这让我这个技术爱好者忍不住想跟大家分享一下它的魅力，顺便奉上和，让你零门槛上手！我生成猫猫打拳我生成怪兽打奥特曼（这个指定是失败作品）

2025-03-07 16:54:07 4745 4

原创 AI语音转文字：支持视频/音频/批量转换，从日常便利到创作利器，我手搓了一个神器给你

在现代生活中，语音转文字是我们触手可及的实用工具。试想一下，开会时，你只需轻轻点开手机录音功能，会议结束后，将音频转化为文字，再丢给AI，几分钟后，一份条理清晰的会议纪要就新鲜出炉。或者，你是个视频剪辑达人，想要“借鉴”同行文案，只需把他们的视频语音转成文字，喂给AI稍作伪原创，摇身一变，就成了你自己的独家文案。没错，这种操作如今已是家常便饭，而“伪原创”——嘿，那也是一种创作，对吧？曾几何时，像剪映这样的大杀器，识别字幕并导出SRT功能可是完全免费开放的。

2025-03-04 11:16:12 1129

原创 VisoMaster：AI脸部替换神器，让你的创意无限可能

VisoMaster可以说是Rope的升级版，如果你熟悉Rope，上手VisoMaster将毫无难度。它是一款功能强大且简单易用的工具，专为图片和视频中的脸部替换与编辑设计。借助人工智能技术，VisoMaster能以最少的操作生成自然流畅的效果，无论是普通用户还是专业人士，它都是释放创意潜能的理想选择。

2025-02-27 12:19:31 2838 6

原创短视频配音工具CosyVoice2.0，解锁市面上所有配音师，这篇文章价值好几千！

这类语音克隆技术，尤其是像CosyVoice 2.0这样的先进版本，为内容创作者和视频制作者带来了革命性的变革。对于短视频创作者来说，CosyVoice 2.0提供的极速复刻和精准配音能力，不仅能节省配音费用，还能提升作品的创意和吸引力。无论是制作鬼畜视频还是其他类型的内容，这项技术都能为你的创作提供强大的助力，帮助你轻松实现音频的创新与突破，助力作品更快速地走红网络。现在有了它，你可以省去费用的同时，还能够通过克隆配音师的音色到你自己的视频文案配音上来。类似这样：내일의 meeting は几点开始？

2025-02-14 16:04:12 852

原创 AI脸部替换：FaceFusion 3.1 重磅更新，支持DFM模型

查看cuda版本切换到桌面，同时按win和r键，打开cmd运行框，输入 nvidia-smi 并回车，如果你的cuda版本低于12.6，请前往 https://www.zhisk.com/1154.html 按照教程安装指定版本的cuda。新增 hififace_256 脸部替换模型，提升脸部替换效果的自然度，但与之前的 inswapper_128_fp16 模型相比，尽管表达更自然，可能略显弱化。对软件的custom目录做了修改，导入的dfm模型，默认在列表的顶部，需要一直往上滑到顶部。

2025-01-08 14:25:33 2505

原创 MagicQuill: AI平板智能画师-AI智能交互式图像编辑系统

什么是 MagicQuill？MagicQuill 是一个高度智能的图像修改编辑系统，有了它，你可以随心所欲地进行绘画和图像编辑。即使你没有任何绘画天赋，也能轻松创作出逼真、惊艳的视觉效果。这款AI绘画交互编辑神器也可以部署在云算力平台上后在iPad等设备上使用。

2025-01-03 16:12:33 448

原创只需两分钟实现 AI文字转视频、图片转视频

它结合了当前最先进的扩散模型技术和变换器架构，能够实现以下核心功能：实时生成能力：以 768x512 的分辨率生成 24 FPS 的视频，生成速度甚至快于观看速度。通过这一工具，即使是非技术背景的用户，也能轻松生成个性化的视频内容。因为它所需要的显存比较大，大部分用户的电脑的GPU基本不会超过16G显存的，所以尽量使用云部署的方式来使用。总结:LTX-Video 是一款极具潜力的工具，无论是通过文字描述创作动态视频，还是将静态图片转化为生动画面，LTX-Video 都将重新定义视频生成的边界。

2024-12-04 13:59:45 3087

原创 FaceFusion3.0.0 重大更新：年龄修改、人脸编辑、批量任务系统、表情控制、日志系统等

该功能可独立使用，也可与其他模式配合使用，适合需要精细调整面部特征的场景。⑤.执行任务 UI工作流程选择job_runner 任务操作选择job-run即可，任务ID选择之前创建的，一般会自动设置成之前创建的任务ID不用再选，然后点击开始。②.选择源文件，和目标文件，源文件就是需要替换上去的人脸图片，目标文件就是被替换的人脸素材图片/视频，可以加上人脸增强的操作和其他界面上拥有的操作都是可以的。上述的②③都是步骤添加的过程，并非只能添加两个步骤，你可以想添加多少个步骤就添加多少个步骤，看你需求来的。

2024-10-02 02:43:25 2736

原创 Rope DFM一键整合包AI脸部替换教程：使用DeepFaceLab模型实现专业级视频和直播脸部替换

在AI脸部替换工具中，Rope凭借其出色的自动遮罩处理拔得头筹，结合DFM模型中的DFL XSeg遮罩处理，效果更是提升了一个台阶。因为在训练模型时，它已经通过大量的侧脸图片进行训练，达到了单张图片无法企及的效果。然而，想要通过DeepFaceLab获得专业级的效果，不仅难度大，时间成本也相当高，训练模型也是个不小的挑战。举个简单的例子，使用图片脸部替换时，如果佩戴眼镜，脸部替换后的可能会显得很假。另外，在视频中，比如歌手演唱时，话筒遮挡住脸部，这种场景也可以通过遮罩训练后的模型来处理，呈现出更逼真的效果。

2024-09-21 14:32:06 7250

原创 AI唇形同步技术：只需一段视频和语音，轻松实现自然对口效果

使用视频素材时，建议使用720p分辨率的视频，因为这些模型通常在较低分辨率下训练，相较于1080p视频，720p能提供更好的效果。如果使用EasyWavlip和VideoRetalking得到的视频不高清，想要更高清，欢迎公众hao call me，教你如何使用模型将视频变的更高清。PS：这里的输出视频长度不是由音频决定的，是由视频决定的，你需要多长的语音，就需要提供和语音一样长度的视频，用视频剪辑软件剪切拼接下重复人脸片段即可。下载压缩包，解压到本地，全路径不能包含中文，包括视频、语音素材。

2024-09-18 17:25:21 3031

原创 LivePortrait 现实/虚拟/二次元人物超逼真的脸部表情模仿，包括动物表情模仿，效果强大，本地一键包教程

快手可灵大模型团队开源的 LivePortrait 框架，以其出色的性能与创新的设计，引领了 AI 生成的新浪潮。贴合 (stitching) 和重定向 (retargeting) 模块的引入，更使得生成视频过程中的每一帧都能无缝过渡，确保动作流畅自然，尤其是当驱动多个角色时，模型的表现尤为出色。cuda版本需要大于等于11.1，如果cuda版本小于11.1，可以按照教程按装指定版本的cuda[--------------]https://www.zhisk.com/1154.html。

2024-09-09 11:13:32 1465

原创 AI脸部替换Roop-Unleashed，一键整合包教程

Roop-Unleashed是一个无须训练模型的深度伪造工具，专为图像和视频的面部替换而设计。它通过简洁的浏览器界面提供用户友好且跨平台的使用体验，无论用户是业余爱好者还是专业人士，都能快速上手。它无需复杂的设置即可实现高效的处理和转换，使图像和视频的编辑变得更加轻松和便捷。

2024-09-07 19:22:35 9879 12

原创 ”言出法随“最懂你的AI绘画工具，无需关键词、一键整合包教程

AI绘画技术已经日新月异，但仍有不少工具依赖于关键词，无论是Midjourney还是Stable Diffusion，都需要用户提供详细的关键词描述。尽管聪明的用户可以借助大语言模型（如GPT-4）自动生成关键词，但这仍旧不是最直观的方式。

2024-09-03 14:46:03 758

原创 AI视频生成工具只需一张照片可以让人物开口说话、唱歌、Rap

现如今，只需一张图片和任意一段音频，AI技术就能帮你生成栩栩如生、高度仿真的视频。无论是让虚拟角色演唱歌曲，还是模仿名人发声，甚至是制作说唱音乐视频，AI都能帮你轻松实现。

2024-08-28 16:38:45 4684

原创 Stable Audio文本转音乐免费商用无版权限制本地一键包使用教程

最近，Stability AI 正式开源了 Stable Audio 1.0 版本，并在其官网上提供了一个能够生成高达3分钟音乐的工具。这些音频不仅质量高，而且完全免费、无版权限制，甚至可以免费用于商业用途。在这个版权限制随处可见的时代，这简直是个天大的好消息。再强调一遍：免费！无版权！Stable Audio 是通过文本生成音乐的工具。如果你不确定如何描述想要的音乐风格，官方网站上提供了丰富的提示词库，供你选择和生成不同类型的音乐。

2024-08-28 12:09:44 1748

原创 AI脸部替换神器Rope一键整合包，保姆级使用教程，最新珍珠版，支持N卡，win10、win11可用

大家好今天要跟大家介绍的是一款速度超快的脸部替换AI——Rope的最新版本。这款软件最让人惊艳的地方是融合脸部替换和脸部区域控制脸部替换。你别看他只有区区4K多stars除了它的脸部替换速度让人惊艳之外，这个工具还支持多张照片同时进行脸部替换。也就是说，你可以选几张人脸照片，算法会自动融合这些面部特征，最终替换原图片/视频中的人脸，效果就像我们游戏中的“捏脸”，多人脸部融合效果非常惊艳。操作非常简单，对于那些脸部无遮挡的视频，你只需要点几下鼠标就能完成脸部替换。如果你的视频中有一些复杂的场景，比如低。

2024-08-16 10:55:55 8821 3

m0_72580657的博客