基于深度学习的中文语音识别模型(支持wav、mp4、m4a等所有格式音频上传)【已开源】

基于深度学习的中文语音识别模型(支持wav、mp4、m4a等所有格式音频上传)

前言

  该开源项目旨在提供一个能够自动检测并识别中文语音的模型,支持wav、mp4、m4a等格式的音频文件上传。无论是从录音设备中获取的wav文件,还是从视频中提取的mp4、m4a文件,我们的模型可以准确识别其中的中文文字内容。通过集成最先进的语音识别技术和深度学习算法,我们的模型能够快速、准确地将声音转换为文字,为用户提供便捷的语音识别体验。

主要功能:

  1. 支持多种常见音频格式,包括wav、mp4、m4a等。
  2. 实现中文语音自动检测和识别,识别准确率高。
  3. 提供简单易用的接口,方便开发者集成到自己的应用程序中。

🚀 算法获取

PS:如果通过Github访问项目,请不要通过“加速通道”访问,因为加速通道中的项目版本可能比较老


✨ 中文音频测试:

  1. 测试音频文件下载(提供一个.m4a格式的中文人声音频):
百度网盘分享的文件
链接:https://pan.baidu.com/s/1G4TxBwAFO2va34H7AY5iYQ?pwd=plmg 
提取码:plmg
  1. 下载预训练模型文件并放在指定目录文件下
百度网盘分享的文件
链接:https://pan.baidu.com/s/1Db0rSxh7cgsVG1-w7Uc0bw?pwd=touc 
提取码:touc

下载model文件后,内含三个model开头的.pt文件,请将model_Ct_punc.pt文件_Ct_punc部分删除后(即文件名改为model.pt)放在Ct_punc文件目录下。

同理将另外两个带后缀的模型下载后删除_Ct_punc部分后分别放在其对应的文件目录下

  1. 环境配置(推荐使用conda安装环境)
# 从github上Clone项目
git clone xxx

# 使用conda创建环境
conda create -n py310 python=3.10
conda activate py310

# cd到算法根目录下
cd speech_recognition

# 在根目录下安装依赖
pip install -r requirements.txt

如果您的显卡支持cuda 11.7及以上,可以直接使用conda导出的yaml文件一次性安装全部环境

# cd到算法根目录下
cd speech_recognition

# 安装conda导出的环境
conda env create -f environment.yml

# 激活环境
conda activate modelscope
  1. 测试音频文件准备好后放在speech_recognition/datasets目录下,然后开始执行测试,识别结果将打印在控制台
python voice_translation_test.py

测试音频截图👇
在这里插入图片描述


  目前现存的中文音频翻译模型普遍存在标点符号的缺失问题,如果您需要中文标点符号添加请访问这篇CSDN文章,文章内提供一个中文标点重建的轻量级模型👇
基于深度学习的中文语音识别模型(支持wav、mp4、m4v格式音频上传)–提供源码和经训练的模型【已开源】

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: Vosk语音识别是一种开源的自然语言处理工具包,支持多种音频格式进行语音识别。它可以处理常见的音频文件格式,如WAV、MP3等,同时也支持流式音频输入。 在Vosk中,WAV是最常用的音频格式之一。WAV是一种无损音频格式,它可以存储高质量的音频数据,并且在Vosk中的语音识别表现良好。使用WAV格式音频进行语音识别时,可以保持音频的原始质量,使识别的准确性得到提高。 此外,Vosk还支持MP3格式音频进行语音识别。MP3是一种常见的有损音频格式,虽然会损失一定的音频质量,但其压缩率高,节省存储空间。使用MP3格式时,Vosk会对音频进行解码,然后进行语音识别。 除了以上两种格式,Vosk还支持其他常见的音频格式,如FLAC、OGG等。这些格式都有自己的特点和优势,在Vosk中也可以进行语音识别。 总之,Vosk语音识别支持多种音频格式,包括WAV、MP3、FLAC、OGG等。无论是使用何种格式,Vosk都可以根据其特点和要求进行相应的处理,从而实现高质量的语音识别。 ### 回答2: Vosk语音识别支持多种音频格式。它可以处理常见的音频格式,如WAV、FLAC、MP3等。对于WAV格式,Vosk支持16位有符号整数或32位浮点数的PCM编码。对于FLAC格式,它支持16位无损音频编码。此外,Vosk还支持16位有符号整数的RAW PCM格式,但需要在音频数据前提供一个WAV头部。 要使用Vosk进行语音识别,我们需要将音频转换为Vosk可接受的格式,并确保音频质量达到最佳识别结果。对于16位PCM编码的WAV格式音频,我们可以使用许多音频编辑工具进行转换,如Audacity、FFmpeg等。对于FLAC格式音频,我们可以使用FFmpeg进行转换。如果音频是MP3格式,我们需要先将其转换为WAV或FLAC,然后再使用Vosk进行识别。 在转换音频格式时,我们还需要注意采样率和音频通道。Vosk支持8k、16k、32k和48k的采样率。通常,采样率越高,音频质量越好,但识别过程需要更多的计算资源。对于音频通道数,Vosk支持单声道和立体声。如果使用立体声音频,我们需要将其转换为单声道格式,以获得更好的识别结果。 总之,Vosk语音识别支持多种音频格式,包括WAV、FLAC和MP3。我们可以使用各种音频编辑工具将音频转换为Vosk可接受的格式,并根据需要调整采样率和音频通道数,以获得最佳的识别结果。 ### 回答3: Vosk语音识别支持多种音频格式。它能够处理PCM音频格式,包括16位、32位浮点数等不同的采样精度。此外,Vosk还支持其他广泛使用的音频格式,如WAV、FLAC、OGG等。用户可以根据自己的需要选择适当的音频格式进行语音识别。 为了更好地使用Vosk进行语音识别,建议使用以下音频格式:16位PCM音频、16kHz采样率和单声道音频。这些参数对语音识别的准确性有着重要影响。同时,用户还可以根据具体需求调整参数设置,例如选择适合的采样精度、采样率和声道数。 总结而言,Vosk语音识别具有广泛的音频格式支持,用户可以根据需求选择适当的音频格式。同时,为了获得更好的识别结果,建议使用16位PCM音频、16kHz采样率和单声道音频

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

苯酸氨酰糖化物

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值