新知mfcc语音识别esp8266继电器开关灯（成为一个DIYer,七）

最新推荐文章于 2024-04-23 08:43:15 发布

工业机器视觉设计和实现

最新推荐文章于 2024-04-23 08:43:15 发布

阅读量596

点赞数

分类专栏：人工智能浅尝

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ganggangwawa/article/details/104357393

版权

人工智能浅尝专栏收录该内容

75 篇文章 7 订阅

订阅专栏

这一节继续Hm(k)的计算,还是看代码：

k=4，应该不难理解吧！上一节有解释。这是Hm（k）的程序验证。

我们用Xa（k）=实部+j*虚部,代表第a帧快速傅里叶变换结果，

|Xa（k）|=math.sqrt(实部^2+虚部^2),

|Xa（k）|^2=实部^2+虚部^2,

而mel短时（256字节）功率谱怎么表达呢？

s(m)=ln∑Hm(k)*|Xa（k）|^2;m就是26组，所以这就是第a帧26组mel短时（256字节）功率谱，那么∑的上下限是多少呢？每一组的上下限显然不同，上限=程序中frequency_boundary[2];下限=程序中frequency_boundary[0]；这是要注意的，很多mfcc的公式介绍，这里是错误的。有26组s（m），就有26组上下限。

上面程序中注释掉的power[k]=|Xa（k）|^2/256 ; 如下图,第a帧要计算128次：

以下是开音有效帧fft和降维后mel短时功率谱的的对比，轻松一下，上是fft，下是功率谱，以便观摩：

以上均是方便清楚观察而有同比例放大。从对比观察看，上下图基本一致，取对数让振幅变换没那么剧烈了（削弱），而且Hm(k)使得高频能看见了（拔高），128维也到了26维（简并，是否想到图像处理的直方图均衡化呢？），平滑性和周期性凸显（频谱的包络是主要是低频成分，已经显现，而频谱的细节部分主要是高频，也已简并）。

这一节到此，如果你对mfcc有兴趣，我会继续展开他。。。。。。

工业机器视觉设计和实现

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。