AIGC工具平台-通用音频转文本_funasr语音转写生成srt文件-CSDN博客

本文链接：https://blog.csdn.net/qq_20288327/article/details/145953734

本模块支持FunAsr和FasterWhisper两种模式，可批量处理音频与视频文件，自动生成txt文本与srt字幕，满足多种应用场景需求。工具内置FunAsr，无需额外参数调整，特别适用于中文语音的高质量转录，确保识别准确率与自然流畅度。而FasterWhisper作为Whisper的升级版本，不仅提升了处理速度，还支持多语言转录，用户可灵活调整参数，以适应更复杂的应用需求。

该工具支持批量处理模式，可快速转换整个目录下的多个音视频文件，大幅提升工作效率。简洁直观的界面配合强大的语音识别技术，使用户能够轻松完成转录任务，广泛适用于字幕制作、内容存档、语音笔记等场景，为多媒体创作和信息处理提供便捷支持。

操作使用

进入软件后可以直接搜索 通用音频转文本 进入该模块。

在这里插入图片描述

文件配置

功能按钮	功能类别	功能描述
选择音频/视频目录	目录选择	选择需转换的文件目录，仅支持音频和视频类型文件，执行任务前自动校验路径有效性。
输出路径	目录选择	设置音频文件的保存位置，默认使用系统设定的统一输出路径，并自动校验路径有效性。
文本转语音方式	模式选择	选择转录模式（FunAsr或FasterWhisper）进行音频/视频转录。

在这里插入图片描述

参数配置

FunAsr音频转录参数设置

选项	参数选择模式	说明
damo模型目录	默认配置	需要按照《我的AI工具箱Tauri+Django环境开发，支持局域网使用》将模型下载到指定目录并解压缩
icc模型目录	默认配置	需要按照《我的AI工具箱Tauri+Django环境开发，支持局域网使用》将模型下载到指定目录并解压缩

在这里插入图片描述

FasterWhisper音频转录参数设置

🚨此转换模式需要有显卡能够进行进行操作，否则会很慢。🚨

选项	参数选择模式	说明
模型目录	默认配置	需要按照《我的AI工具箱Tauri+Django环境开发，支持局域网使用》将模型下载到指定目录并解压缩
计算方式	下拉选择	选择计算精度（如 16 位整数）
CPU 线程	下拉选择	设置用于计算的 CPU 线程数量（如 4 线程）
工作线程	下拉选择	设置后台工作的线程数量（如 8 个）
语言选择	下拉选择	选择识别语言（如中文简体）
语音活动检测	开关	启用或禁用语音活动检测功能
语音检测强度	滑动条	设置语音活动检测的敏感度（如 3%）
前后填充时间	滑动条	设置语音处理的前后填充时间（如 56ms）
最短持续时间	滑动条	设置语音片段的最短持续时间（如 33ms）
最短静音时间	滑动条	设置识别过程中最短的静音间隔（如 78ms）

在这里插入图片描述

应用示例

这里以选择目录下有各种音频和视频文件，在选择目录后选择转录方式，这里选择FunAsr模型，在保证已经从网盘中下载好模型之后直接执行即可。

在这里插入图片描述

执行完成之后会在输入目录下看到生成的音频文件。

在这里插入图片描述

开发与应用

软件使用以及综合参考资料内容可以查阅

文章链接	内容描述
AIGC工具平台Tauri+Django环境开发，支持局域网使用	图形桌面工具使用教程，详细介绍 Tauri+Django 环境的开发方法，支持局域网部署与使用。
AIGC工具平台Tauri+Django常见错误与解决办法	常见错误与解决办法，针对 Tauri+Django 环境下可能遇到的问题提供实用的解决方案。
AIGC工具平台Tauri+Django内容生产介绍和使用	包含当前主流新媒体领域常用的音频、视频剪辑，以及内容一键生产功能。
AIGC工具平台Tauri+Django开源ComfyUI项目介绍和使用	工作流相关内容讲解，涵盖文件管理、文件汇总、软件使用教程及开发指导，附带模型下载资源。
AIGC工具平台Tauri+Django开源git项目介绍和使用	开源git项目内容讲解，涵盖项目整合包、算法模型、测试指导、项目应用，附带项目整合包下载。