教你训练一个简单的音频识别网络（附代码）

最新推荐文章于 2024-07-30 14:24:53 发布

「已注销」

最新推荐文章于 2024-07-30 14:24:53 发布

阅读量1w

点赞数 4

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eNohtZvQiJxo00aTz3y8/article/details/78153667

版权

本文将指导你如何训练一个基本的音频识别模型，通过实践操作，包括数据预处理、模型构建、训练过程以及代码实现，掌握音频特征提取和深度学习模型的应用。

摘要由CSDN通过智能技术生成

来源：大数据文摘

本文长度为7600字，建议阅读10分钟

本文将一步步向你展示，如何建立一个能识别10个不同词语的基本语音识别网络。

你需要知道，真正的语音与音频识别系统要复杂的多，但就像图像识别领域的MNIST，它将让你对所涉及的技术有个基本了解。

完成本教程后，你将拥有一个模型，能够辨别一个1秒钟的音频片段是否是无声的、无法识别的词语，或者是“yes”、“no”、“up”、“down”、“left”、“right”、 “on”、“off”、“stop”、“go”。你还可以使用这个模型并在Android应用程序中运行它。

注：本文含有大量代码，需要代码原文的同学请参考文末来源地址中的内容。

准备工作

确保你已经安装了TensorFlow，由于脚本程序将下载超过1GB的训练数据，你需要畅通的网络连接，而且你的机器需要有足够的空余空间。训练过程本身可能需要几个小时，所以确保你有一台可以使用这么长时间的机器。

训练

开始训练前，在TensorFlow 源码树下运行：

这个脚本程序将开始下载“语音命令数据集”，包括65000条由不同的人说30个不同词语组成的WAVE音频文件。这份数据由Google收集，并在CC-BY协议许可下发行，你可以通过贡献自己五分钟的声音来帮助提升它。这份文件大小超过1GB，所以这部分可能需要一段的时间，但你应该看一下过程日志，一旦它被下载一次，你就不需要再进行这一步了。

这表明初始化进程已经完成，循环训练已经开始，你将看到每一次训练产生的输出信息。这里分别解释一下含义：

在100步之后，你将会看到一行输出如下：

最低0.47元/天解锁文章

「已注销」

关注

4
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。