基于深度学习的中文语音识别模型（支持wav、mp4、m4a等所有格式音频上传）【已开源】

苯酸氨酰糖化物

已于 2024-06-06 14:30:55 修改

阅读量726

点赞数 4

分类专栏：开源文章标签：深度学习语音识别音视频人工智能机器翻译

于 2024-06-06 13:34:27 首次发布

本文链接：https://blog.csdn.net/qq_45566099/article/details/139494719

版权

开源专栏收录该内容

2 篇文章 0 订阅

订阅专栏

基于深度学习的中文语音识别模型（支持wav、mp4、m4a等所有格式音频上传）

前言

该开源项目旨在提供一个能够自动检测并识别中文语音的模型，支持wav、mp4、m4a等格式的音频文件上传。无论是从录音设备中获取的wav文件，还是从视频中提取的mp4、m4a文件，我们的模型可以准确识别其中的中文文字内容。通过集成最先进的语音识别技术和深度学习算法，我们的模型能够快速、准确地将声音转换为文字，为用户提供便捷的语音识别体验。

主要功能：

支持多种常见音频格式，包括wav、mp4、m4a等。
实现中文语音自动检测和识别，识别准确率高。
提供简单易用的接口，方便开发者集成到自己的应用程序中。

🚀 算法获取

Giuhub链接：GitHub链接
Gitee链接：Gitee

PS：如果通过Github访问项目，请不要通过“加速通道”访问，因为加速通道中的项目版本可能比较老

✨ 中文音频测试：

测试音频文件下载（提供一个.m4a格式的中文人声音频）：

百度网盘分享的文件
链接：https://pan.baidu.com/s/1G4TxBwAFO2va34H7AY5iYQ?pwd=plmg 
提取码：plmg

百度网盘分享的文件
链接：https://pan.baidu.com/s/1Db0rSxh7cgsVG1-w7Uc0bw?pwd=touc 
提取码：touc

下载model文件后，内含三个model开头的.pt文件，请将model_Ct_punc.pt文件_Ct_punc部分删除后（即文件名改为model.pt）放在Ct_punc文件目录下。

同理将另外两个带后缀的模型下载后删除_Ct_punc部分后分别放在其对应的文件目录下

环境配置（推荐使用conda安装环境）

# 从github上Clone项目
git clone xxx

# 使用conda创建环境
conda create -n py310 python=3.10
conda activate py310

# cd到算法根目录下
cd speech_recognition

# 在根目录下安装依赖
pip install -r requirements.txt

如果您的显卡支持cuda 11.7及以上，可以直接使用conda导出的yaml文件一次性安装全部环境

# cd到算法根目录下
cd speech_recognition

# 安装conda导出的环境
conda env create -f environment.yml

# 激活环境
conda activate modelscope

测试音频文件准备好后放在speech_recognition/datasets目录下，然后开始执行测试，识别结果将打印在控制台

python voice_translation_test.py

测试音频截图👇
在这里插入图片描述

附

目前现存的中文音频翻译模型普遍存在标点符号的缺失问题，如果您需要中文标点符号添加请访问这篇CSDN文章，文章内提供一个中文标点重建的轻量级模型👇
基于深度学习的中文语音识别模型（支持wav、mp4、m4v格式音频上传）–提供源码和经训练的模型【已开源】

苯酸氨酰糖化物

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录