2501_94690808-CSDN博客

原创最强免费分说话人语音识别工具，支持批量音视频识别转字幕，字幕翻译内容总结软件

这是一款基于Qwen3-ASR-1.7B大模型的本地语音识别工具，主要功能包括：支持批量音视频转文字，自动区分说话人并导出带时间轴的TXT/SRT/字幕文件可选AI翻译生成双语字幕，以及AI自动总结，支持单文件或文件夹批量处理要求Win10/11系统，识别结果包含纯文本、标准字幕、双语字幕和结构化总结四种输出格式特色在于离线环境下实现说话人分离和自动总结，适合会议记录、视频字幕制作等场景，

2026-06-22 07:55:24 593

原创 Adobe Premiere Pro视频静音片段自动剪辑插件——Silence Remover使用教程及下载

PhantomEditor推出的免费Premiere Pro插件SilenceRemover，通过AI技术自动检测并清理视频/音频中的静音片段，大幅提升口播、Vlog等内容的剪辑效率。核心功能包括：可调节静音阈值（30-60dB）、最大静音保留时长、前后语音缓冲保护（防吞字）、波形可视化编辑，支持直接删除或非破坏性禁用静音片段，并能保存常用参数为预设。特别适合处理大量"嗯啊"停顿的口播创作者和播客制作者，

2026-06-21 21:39:51 369

原创 AI视频生成提示词反推工具，参考视频即梦提示词一键生成

一款专为AI视频创作者设计的本地化离线工具，可自动将视频转化为结构化提示词。该工具通过三层智能抽帧算法（场景检测+光流采样+去重处理）提取关键帧，并基于Qwen3.5模型从8个维度（主体/动作/镜头/风格等）进行多模态分析，输出适配即梦AI等平台的标准化提示词。支持4种模型规格（0.8B-9B）本地推理，采用vLLM+Gradio架构，确保数据安全。核心优势在于全流程自动化处理，帮助创作者快速复用视频风格、建立提示词资产库，显著提升创作效率。

2026-06-21 21:35:57 359

原创闲鱼客服自动回复机器人XianyuAutoAgent，24小时在线AI智能客服机器人系统

XianyuAutoAgent是一款专为闲鱼平台设计的智能客服解决方案，通过大语言模型实现全天候自动回复。核心功能包括：1）智能识别买家意图（价格/技术咨询等），采用多AI专家协作生成专业回复；2）提供可视化WebUI管理API密钥、Cookie及提示词，支持实时日志监控；3）独创人工接管模式，通过发送句号切换人工/自动服务；4）内置安全防护机制，过滤敏感信息并支持模拟人工输入延迟。

2026-06-19 21:55:28 309

原创 AI实时语音聊天对话软件，外语口语陪练/虚拟好友实时语音交流系统

AI实时语音对话系统是一款集成语音识别(ASR)、大语言模型(LLM)和语音合成(TTS)的交互软件，支持端到端的自然语音对话。系统特点包括：全链路实时处理(流式传输、低延迟)、7种多语言AI角色(可自定义)、智能语音处理(VAD检测、降噪)、兼容OpenAI API标准、可视化三栏界面。适用于外语练习、日常聊天等场景，支持本地化部署保障隐私。

2026-06-19 21:52:40 329

原创声音克隆对话语音合成工具Chatterbox TTS免安装版，AI实时文字转语音软件

Chatterbox是由ResembleAI开发的开源TTS模型，支持零样本音色克隆和多语言语音合成。本文介绍了一款整合包，优化了UI并新增多人对话和实时语音功能。该工具支持23种语言，通过3-10秒音频即可克隆音色，提供10余项参数调节，并内置音频水印技术。整合包包含单段合成、多人对话和实时合成三种模式，支持最多5人对话场景。

2026-06-18 19:09:29 312

原创腾讯Hunyuan三维世界重建系统WorldMirror 2.0通用3D三维资产重建软件下载

腾讯混元团队推出的WorldMirror2.0是一款先进的3D世界重建系统，支持通过普通照片或视频自动生成多种三维资产。该系统具备多视角重建能力，可输出点云/网格模型、3D高斯泼溅、深度图等格式，并支持视频抽帧和天空背景过滤功能。应用界面分为文件上传和三维可视化两部分，提供实时日志显示和交互式预览。系统建议使用NVIDIA 30系列以上显卡，对输入图像要求60%以上的重叠率。输出包含GLB模型、高斯点云及相机参数等文件，但存在对纯色场景和透明物体的重建限制。

2026-06-18 19:05:11 439

原创 Qwen3-TTS声音克隆语音合成系统软件下载，AI视频配音多人对话生成工具

阿里Qwen3-TTS是一款支持10种语言的多功能语音合成系统，具备音色克隆、音色设计和9种预设音色功能。该系统采用自研12Hz编解码器和离散多码本架构，支持流式生成（首包延迟97ms）和自然语言指令控制。整合包优化了低端显卡支持，提供预设音色合成、自定义音色设计、音色克隆及多人对话四大功能模块，支持中英日韩等语言，适用于有声读物、游戏配音等场景。

2026-06-17 15:16:23 304

原创一键自动生成B站油管视频笔记软件BiliNote下载，AI视频内容总结工具

BiliNote是一款开源AI视频笔记工具，能自动将视频（B站/YouTube/抖音等）转化为结构化Markdown笔记。核心功能包括：多平台支持、语音转写、AI内容总结（支持多种大模型）、自动生成带关键截图和时间戳的笔记。其技术架构采用React+FastAPI，通过视频下载、语音识别、AI摘要等模块实现"视频→文本→知识"的自动化处理。适用于学习者、创作者、研究人员快速提取视频核心内容，解决视频信息复用效率低的问题

2026-06-17 15:12:24 305

原创 LTX-2.3 视频生成免安装部署整合包软件下载

LTX-2.3是由Lightricks开发的音视频生成基础模型，采用DiT架构统一生成同步的高质量视频与音频。核心功能包括：两阶段高清生成（44GB主模型+1GB上采样器）、蒸馏模型快速生成（8步推理）、图像视频转换、关键帧插值、音频驱动生成等8大模式。

2026-06-16 09:33:57 327

原创多人对话有声书制作软件VoxCPM软件下载，高质量声音克隆语音合成工具

VoxCPM是一款由OpenBMB团队开发的开源TTS语音合成系统，最新版本VoxCPM2采用Tokenizer-Free的端到端扩散自回归架构，支持48kHz高音质输出和30种语言（包括多种汉语方言）。该系统具备零样本克隆、音色设计、语境感知等核心功能，用户可通过自然语言描述定制声音或基于参考音频克隆音色。本次更新特别增加了多人对话语音合成功能，支持最多5个角色自动拼接成长音频，大幅提升有声书、播客等内容创作效率。

2026-06-16 09:24:38 318 1

2501_94690808的博客