- 博客(11)
- 收藏
- 关注
原创 最强免费分说话人语音识别工具,支持批量音视频识别转字幕,字幕翻译内容总结软件
这是一款基于Qwen3-ASR-1.7B大模型的本地语音识别工具,主要功能包括: 支持批量音视频转文字,自动区分说话人并导出带时间轴的TXT/SRT/字幕文件 可选AI翻译生成双语字幕,以及AI自动总结,支持单文件或文件夹批量处理 要求Win10/11系统,识别结果包含纯文本、标准字幕、双语字幕和结构化总结四种输出格式 特色在于离线环境下实现说话人分离和自动总结,适合会议记录、视频字幕制作等场景,
2026-06-22 07:55:24
593
原创 Adobe Premiere Pro视频静音片段自动剪辑插件——Silence Remover使用教程及下载
PhantomEditor推出的免费Premiere Pro插件SilenceRemover,通过AI技术自动检测并清理视频/音频中的静音片段,大幅提升口播、Vlog等内容的剪辑效率。核心功能包括:可调节静音阈值(30-60dB)、最大静音保留时长、前后语音缓冲保护(防吞字)、波形可视化编辑,支持直接删除或非破坏性禁用静音片段,并能保存常用参数为预设。特别适合处理大量"嗯啊"停顿的口播创作者和播客制作者,
2026-06-21 21:39:51
369
原创 AI视频生成提示词反推工具,参考视频即梦提示词一键生成
一款专为AI视频创作者设计的本地化离线工具,可自动将视频转化为结构化提示词。该工具通过三层智能抽帧算法(场景检测+光流采样+去重处理)提取关键帧,并基于Qwen3.5模型从8个维度(主体/动作/镜头/风格等)进行多模态分析,输出适配即梦AI等平台的标准化提示词。支持4种模型规格(0.8B-9B)本地推理,采用vLLM+Gradio架构,确保数据安全。核心优势在于全流程自动化处理,帮助创作者快速复用视频风格、建立提示词资产库,显著提升创作效率。
2026-06-21 21:35:57
359
原创 闲鱼客服自动回复机器人XianyuAutoAgent,24小时在线AI智能客服机器人系统
XianyuAutoAgent是一款专为闲鱼平台设计的智能客服解决方案,通过大语言模型实现全天候自动回复。核心功能包括:1)智能识别买家意图(价格/技术咨询等),采用多AI专家协作生成专业回复;2)提供可视化WebUI管理API密钥、Cookie及提示词,支持实时日志监控;3)独创人工接管模式,通过发送句号切换人工/自动服务;4)内置安全防护机制,过滤敏感信息并支持模拟人工输入延迟。
2026-06-19 21:55:28
309
原创 AI实时语音聊天对话软件,外语口语陪练/虚拟好友实时语音交流系统
AI实时语音对话系统是一款集成语音识别(ASR)、大语言模型(LLM)和语音合成(TTS)的交互软件,支持端到端的自然语音对话。系统特点包括:全链路实时处理(流式传输、低延迟)、7种多语言AI角色(可自定义)、智能语音处理(VAD检测、降噪)、兼容OpenAI API标准、可视化三栏界面。适用于外语练习、日常聊天等场景,支持本地化部署保障隐私。
2026-06-19 21:52:40
329
原创 声音克隆对话语音合成工具Chatterbox TTS免安装版,AI实时文字转语音软件
Chatterbox是由ResembleAI开发的开源TTS模型,支持零样本音色克隆和多语言语音合成。本文介绍了一款整合包,优化了UI并新增多人对话和实时语音功能。该工具支持23种语言,通过3-10秒音频即可克隆音色,提供10余项参数调节,并内置音频水印技术。整合包包含单段合成、多人对话和实时合成三种模式,支持最多5人对话场景。
2026-06-18 19:09:29
312
原创 腾讯Hunyuan三维世界重建系统WorldMirror 2.0通用3D三维资产重建软件下载
腾讯混元团队推出的WorldMirror2.0是一款先进的3D世界重建系统,支持通过普通照片或视频自动生成多种三维资产。该系统具备多视角重建能力,可输出点云/网格模型、3D高斯泼溅、深度图等格式,并支持视频抽帧和天空背景过滤功能。应用界面分为文件上传和三维可视化两部分,提供实时日志显示和交互式预览。系统建议使用NVIDIA 30系列以上显卡,对输入图像要求60%以上的重叠率。输出包含GLB模型、高斯点云及相机参数等文件,但存在对纯色场景和透明物体的重建限制。
2026-06-18 19:05:11
439
原创 Qwen3-TTS声音克隆语音合成系统软件下载,AI视频配音多人对话生成工具
阿里Qwen3-TTS是一款支持10种语言的多功能语音合成系统,具备音色克隆、音色设计和9种预设音色功能。该系统采用自研12Hz编解码器和离散多码本架构,支持流式生成(首包延迟97ms)和自然语言指令控制。整合包优化了低端显卡支持,提供预设音色合成、自定义音色设计、音色克隆及多人对话四大功能模块,支持中英日韩等语言,适用于有声读物、游戏配音等场景。
2026-06-17 15:16:23
304
原创 一键自动生成B站油管视频笔记软件BiliNote下载,AI视频内容总结工具
BiliNote是一款开源AI视频笔记工具,能自动将视频(B站/YouTube/抖音等)转化为结构化Markdown笔记。核心功能包括:多平台支持、语音转写、AI内容总结(支持多种大模型)、自动生成带关键截图和时间戳的笔记。其技术架构采用React+FastAPI,通过视频下载、语音识别、AI摘要等模块实现"视频→文本→知识"的自动化处理。适用于学习者、创作者、研究人员快速提取视频核心内容,解决视频信息复用效率低的问题
2026-06-17 15:12:24
305
原创 LTX-2.3 视频生成免安装部署整合包软件下载
LTX-2.3是由Lightricks开发的音视频生成基础模型,采用DiT架构统一生成同步的高质量视频与音频。核心功能包括:两阶段高清生成(44GB主模型+1GB上采样器)、蒸馏模型快速生成(8步推理)、图像视频转换、关键帧插值、音频驱动生成等8大模式。
2026-06-16 09:33:57
327
原创 多人对话有声书制作软件VoxCPM软件下载,高质量声音克隆语音合成工具
VoxCPM是一款由OpenBMB团队开发的开源TTS语音合成系统,最新版本VoxCPM2采用Tokenizer-Free的端到端扩散自回归架构,支持48kHz高音质输出和30种语言(包括多种汉语方言)。该系统具备零样本克隆、音色设计、语境感知等核心功能,用户可通过自然语言描述定制声音或基于参考音频克隆音色。本次更新特别增加了多人对话语音合成功能,支持最多5个角色自动拼接成长音频,大幅提升有声书、播客等内容创作效率。
2026-06-16 09:24:38
318
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅