基于深度学习的中文语音识别模型(支持wav、mp4、m4a等所有格式音频上传)【已开源】

基于深度学习的中文语音识别模型(支持wav、mp4、m4a等所有格式音频上传)

前言

  该开源项目旨在提供一个能够自动检测并识别中文语音的模型,支持wav、mp4、m4a等格式的音频文件上传。无论是从录音设备中获取的wav文件,还是从视频中提取的mp4、m4a文件,我们的模型可以准确识别其中的中文文字内容。通过集成最先进的语音识别技术和深度学习算法,我们的模型能够快速、准确地将声音转换为文字,为用户提供便捷的语音识别体验。

主要功能:

  1. 支持多种常见音频格式,包括wav、mp4、m4a等。
  2. 实现中文语音自动检测和识别,识别准确率高。
  3. 提供简单易用的接口,方便开发者集成到自己的应用程序中。

🚀 算法获取

PS:如果通过Github访问项目,请不要通过“加速通道”访问,因为加速通道中的项目版本可能比较老


✨ 中文音频测试:

  1. 测试音频文件下载(提供一个.m4a格式的中文人声音频):
百度网盘分享的文件
链接:https://pan.baidu.com/s/1G4TxBwAFO2va34H7AY5iYQ?pwd=plmg 
提取码:plmg
  1. 下载预训练模型文件并放在指定目录文件下
百度网盘分享的文件
链接:https://pan.baidu.com/s/1Db0rSxh7cgsVG1-w7Uc0bw?pwd=touc 
提取码:touc

下载model文件后,内含三个model开头的.pt文件,请将model_Ct_punc.pt文件_Ct_punc部分删除后(即文件名改为model.pt)放在Ct_punc文件目录下。

同理将另外两个带后缀的模型下载后删除_Ct_punc部分后分别放在其对应的文件目录下

  1. 环境配置(推荐使用conda安装环境)
# 从github上Clone项目
git clone xxx

# 使用conda创建环境
conda create -n py310 python=3.10
conda activate py310

# cd到算法根目录下
cd speech_recognition

# 在根目录下安装依赖
pip install -r requirements.txt

如果您的显卡支持cuda 11.7及以上,可以直接使用conda导出的yaml文件一次性安装全部环境

# cd到算法根目录下
cd speech_recognition

# 安装conda导出的环境
conda env create -f environment.yml

# 激活环境
conda activate modelscope
  1. 测试音频文件准备好后放在speech_recognition/datasets目录下,然后开始执行测试,识别结果将打印在控制台
python voice_translation_test.py

测试音频截图👇
在这里插入图片描述


  目前现存的中文音频翻译模型普遍存在标点符号的缺失问题,如果您需要中文标点符号添加请访问这篇CSDN文章,文章内提供一个中文标点重建的轻量级模型👇
基于深度学习的中文语音识别模型(支持wav、mp4、m4v格式音频上传)–提供源码和经训练的模型【已开源】

【资源说明】 #### python==3.7 PyAudio-0.2.11-cp37-cp37m-win_amd64.whl直接pip安装 手机录音mp3格式音频转 程序可识别的wav格式音频 要求采样率必须设置为16000Hz 免费在线转换网址如下: https://convertio.co/zh/mp3-wav/ 转换好的wav音频,自己先播放下看声音是否与原始MP3格式音频一致,一致的话才可用于识别,若变声则转换有问题,查看下采样率是否为16000 1、csdn下载源码到本地解压重命名为英文名字(切记不要中文路径) 2、pip install -r requirements.txt 3、PyAudio-0.2.11-cp37-cp37m-win_amd64.whl直接pip安装、python要求3.7 4、按照项目使用说明操作,步骤简单,有问题可私信于我,我来教你运行,包运行! 包运行!包运行!包运行! 5、项目已经放置多个测试wav音频,识别的可以 6、当识别出语音后,会自动播放识别到的文字 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。 3、用途:项目具有较高的学习借鉴价值,不仅适用于小白学习入门进阶。也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载,沟通交流,互相学习,共同进步!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

苯酸氨酰糖化物

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值