语音识别：原理

最新推荐文章于 2021-12-22 16:09:25 发布

u010191873

最新推荐文章于 2021-12-22 16:09:25 发布

阅读量892

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010191873/article/details/8804593

版权

从研究方向上看有人从发音原理入手，有人从听觉原理入手，还有人从声音特征入手。新闻联播主持人发出的声音通过电视系统广播能让上亿人理解这说明电子系统采集的声音数据已经包含了足够让人理解的信息所以把声音数据作为研究对象完全可行。我选择从声音特征入手。

咱们都知道声音就是在空气中传播的纵向机械波。纯机械波有相位，强度，频率三种特征，那种特征最关键呢？

在屋子里看电视的人无论距离电视多远都能听懂电视发出的声音由此我们可以判断相位不是关键特征。因为相位和距离有关，接收距离不同接收到的相位也不同同。

同样在屋子里看电视把声音调大些或者调小些我们都能听懂电视发出的声音由此我们可以判断强度也不是关键特征。

只剩下频率了。频率是不是关键特征呢？答案是肯定的。相关证据大家在后边的实验中会看到。

绝大多数语音识别软件都是如下流程：1 采集声音样本。 2 测量能量分布。3 搜索匹配词组。

第一步：

声卡会帮助我们采集声音样本。通过调用微软DirectSound接口调用即可。

第二步：

现实中的声音是无数单频波组合的产物。有些频率能量大到占到全部能量的100%，有些频率能量小到占全部能量的0%。当然振幅大的频率起着决定作用。如何测量各个频率的能量呢？常见的方法有两种：1 FFT，快速傅里叶变换。2 Wavelet，小波分析。

FFT是老牌信号分析算法现。缺点是测量分辨率受测不准原理限制。

Wavelet是最近十几年才流行起来的算法。优点是分辨率可以灵活调整缺点是原理晦涩难懂。

如果你不搞通讯信建议你还是站在别人的肩膀上用现成开发包吧。晚些时候我会向提供。

第三步：

这里使用最多的是DTW。简单说就是把第二步中得到的能量分布和已有的能量分布样本一个一个对比能量分布越相似这个样本越可靠。DTW资料不少这里不再多说。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
语音识别：原理

从研究方向上看有人从发音原理入手，有人从听觉原理入手，还有人从声音特征入手。新闻联播主持人发出的声音通过电视系统广播能让上亿人理解这说明电子系统采集的声音数据已经包含了足够让人理解的信息所以把声音数据作为研究对象完全可行。我选择从声音特征入手。咱们都知道声音就是在空气中传播的纵向机械波。纯机械波有相位，强度，频率三种特征，那种特征最关键呢？在屋子里看电视的人无论距离电视多远都能听懂电
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。