ASRT：一个中文语音识别系统

最新推荐文章于 2024-08-09 07:29:36 发布

编程大乐趣

最新推荐文章于 2024-08-09 07:29:36 发布

阅读量1.1k

点赞数

ASRT是AI柠檬博主开发的基于深度学习的中文语音识别系统，使用CNN和CTC方法，训练数据集包括大量中文语音。该系统在Windows上实现了UWP和.Net桌面应用，准确率为80%。系统采用VGG网络结构，结合CTC解码将语音转化为拼音，再通过语言模型转换为中文文本。项目已在GitHub开源，未来计划加入说话人识别功能。

摘要由CSDN通过智能技术生成

点击量：52833

(在苹果系统下，如果文章中的图片不能正常显示，请升级Safari浏览器到最新版本，或者使用Chrome、Firefox浏览器打开。)

ASRT是一套基于深度学习实现的语音识别系统，全称为Auto Speech Recognition Tool，由AI柠檬博主开发并在GitHub上开源(GPL 3.0协议)。本项目声学模型通过采用卷积神经网络（CNN）和连接性时序分类（CTC）方法，使用大量中文语音数据集进行训练，将声音转录为中文拼音，并通过语言模型，将拼音序列转换为中文文本。算法模型在测试集上已经获得了80%的正确率。基于该模型，在Windows平台上实现了一个基于ASRT的语音识别应用软件，取得了较好应用效果。这个应用软件包含Windows 10 UWP商店应用和Windows 版.Net平台桌面应用，也一起开源在GitHub上了。

ASRT项目主页：

GitHub项目地址：

语音识别核心系统

语音识别客户端应用

近年来，深度学习在人工智能领域兴起，其对语音识别也产生了深远影响，深层的神经网络逐步替代了原来的GMM-HMM模型。在人类的交流和知识传播中，大约 70% 的信息是来自于语音。未来，语音识别将必然成为智能生活里重要的一部分，它可以为语音助手、语音输入等提供必不可少的基础，这将会成为一种新的人机交互方式。因此，我们需要让机器听懂人的声音。

我们的语音识别系统的声学模型采用了深度全卷积神经网络，直接将语谱图作为输入。模型结构上，借鉴了图像识别中效果最好的网络配置VGG，这种网络模型有着很强的表达能力，可以看到非常长的历史和未来信息，相比RNN在鲁棒性上更出色。在输出端

最低0.47元/天解锁文章

编程大乐趣

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
ASRT：一个中文语音识别系统

点击量：52833(在苹果系统下，如果文章中的图片不能正常显示，请升级Safari浏览器到最新版本，或者使用Chrome、Firefox浏览器打开。)ASRT是一套基于深度学习实现的语音识别系统，全称为Auto Speech Recognition Tool，由AI柠檬博主开发并在GitHub上开源(GPL 3.0协议)。本项目声学模型通过采用卷积神经网络（CNN）和连接性时序分类（CTC）方法，...
复制链接

扫一扫