现在有什么开源的语音识别吗？

最新推荐文章于 2024-08-16 08:33:04 发布

编程大乐趣

最新推荐文章于 2024-08-16 08:33:04 发布

阅读量551

点赞数

ASRT是一个由AI柠檬博主开发的中文语音识别开源项目，采用深度学习技术，利用CNN和CTC实现声音转拼音，再通过语言模型转化为中文文本。系统包括声学模型、CTC解码、语言模型和HTTP API接口，提供了Windows UWP和WPF客户端。在测试集上，ASRT已达到80%的正确率。

摘要由CSDN通过智能技术生成

开源的语音识别首先推荐的当然就是ASRT语音识别项目

这是一个基于中文的语音识别开源项目，GitHub地址为：nl8590687/ASRT_SpeechRecognitiongithub.com

ASRT是一套基于深度学习实现的语音识别系统，全称为Auto Speech Recognition Tool，由AI柠檬博主开发并在GitHub上开源(GPL 3.0协议)。本项目声学模型通过采用卷积神经网络（CNN）和连接性时序分类（CTC）方法，使用大量中文语音数据集进行训练，将声音转录为中文拼音，并通过语言模型，将拼音序列转换为中文文本。算法模型在测试集上已经获得了80%的正确率。基于该模型，在Windows平台上实现了一个基于ASRT的语音识别应用软件，取得了较好应用效果。这个应用软件包含Windows 10 UWP商店应用和Windows 版.Net平台桌面应用，也一起开源在GitHub上了。

ASRT语音识别系统的声学模型采用了深度全卷积神经网络，直接将语谱图作为输入。模型结构上，借鉴了图像识别中效果最好的网络配置VGG，这种网络模型有着很强的表达能力，可以看到非常长的历史和未来信息，相比RNN在鲁棒性上更出色。在输出端，这种模型可以和CTC方案可以完美结合，以实现整个模型的端到端训练，将声音波形信号直接转录为中文普通话拼音序列。在语言模型上，通过最大熵隐含马尔可夫模型，将拼音序列转换为中文文本。并且，为了通过网络提供服务给所有的用户，本项目还使用了Pytho

最低0.47元/天解锁文章

编程大乐趣

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫