mfcc总结，从mfcc到薛定谔方程的推导理解

最新推荐文章于 2022-12-11 22:07:11 发布

工业机器视觉设计和实现

最新推荐文章于 2022-12-11 22:07:11 发布

阅读量649

点赞数

分类专栏：人工智能浅尝

本文链接：https://blog.csdn.net/ganggangwawa/article/details/104438734

版权

人工智能浅尝专栏收录该内容

75 篇文章 7 订阅

订阅专栏

在mfcc学习过程中，遇到这样的讲解：

1，声道的形状在语音短时功率谱的包络中显示出来。而MFCCs就是一种准确描述这个包络的一种特征。

2，将原始的频谱由两部分组成：包络h[k]和频谱的细节E[k]。共振峰在包络h[k]中，共振峰就是携带了声音的辨识属性（就是个人身份证一样）。

3，而我们所关心的h[k]就是倒谱的低频部分。h[k]描述了频谱的包络，它在语音识别中被广泛用于描述特征。

下面这一段话非常重要：同态信号处理(靠谱)

它的目的是将非线性问题转化为线性问题的处理方法。原来的语音信号实际上是一个卷性信号（声道相当于一个线性时不变系统，声音的产生可以理解为一个激励通过这个系统），第一步通过卷积将其变成了乘性信号（时域的卷积相当于频域的乘积）X[k]=H[k]E[k]。第二步通过取对数将乘性信号转化为加性信号log|X[k]|=log|H[k]|+log|E[k]|，第三步进行逆变换，使其恢复为卷性信号。这时候，虽然前后均是时域序列，但它们所处的离散时域显然不同，所以后者称为倒谱频域。倒谱（cepstrum）就是一种信号的傅里叶变换经对数运算后再进行傅里叶反变换得到的谱。

那么光电信号，它具有波粒二象性，被证明也是一种波，是否也可以当做卷性信号处理呢？是的，世界是相似的，人工智能时代，一个是概率，一个是信号处理（图像和声音识别？），而他的鼻祖，或许就是薛定谔开拓性的工作，非常喜欢薛定谔的著作《生命是什么》，但里边没有概率和信号处理，身为AI时代的一份子，高山仰止，终于可以窥探一下薛定谔方程了（至少一百年的差距啊！）。或许，我们一辈子都不会用它，但我们可以窥探一下渗透其中伟人的习惯。（做一记录，启示之）

第一，概率方面，薛定谔方程基础不难，通过了。

1，光的强度取决于单位体积内光子的数目，即光子的密度ρ。在空间某一点的光子密度应为 ρ= $\lim_{\Delta V}$ (△N/△v)=dN/dv

△v是体积元，△N是△v中的光子数目。

2，这个公式，我在高中物理未学过，电磁场的能量密度u=E^2/(8*PI)+H^2/(8*PI)

E^2和H^2代表电场波和磁场波振幅能量，与声波傅里叶变换后的|X（k）|^2能量何其相似！因为E=H，所以令Ψ=E=H，得

u=Ψ^2/(4*PI)

3，光子的能量e=普朗克恒量h*光子的频率f，即e=hf，而能量密度u=光子密度ρ*光子能量e，即u=ρ*hf=Ψ^2/(4*PI)

令k=1/(4*PI*hf),则ρ=k*Ψ^2，因为我们把能量用向量的振幅平方表示，如|X（k）|^2，所以，ρ=dN/dv=k*|Ψ|^2

所以，dN=k*|Ψ|^2*dv

4，概率相关，每一个电子落在△v内的概率是△P=△N/N，当△v趋于无穷小，△N就趋于dN，△P就趋于dP，所以

dP=dN/N,当N=1时，dP=dN/N==k*|Ψ|^2*dv，即概率密度dP/dv=k*|Ψ|^2（这才真正叫概率密度的来源吧！）.

5，关键来了(归一化思想），微粒（光子）在整个空间的出现概率等于1，即对公式概率密度dP=dN/N==k*|Ψ|^2*dv积分，

1=k* $\int \infty$ |Ψ|^2*dv

第二，薛定谔方程推导：原来的语音信号实际上是一个卷性信号（声道相当于一个线性时不变系统，声音的产生可以理解为一个激励通过这个系统），第一步通过卷积将其变成了乘性信号（时域的卷积相当于频域的乘积）X[k]=H[k]E[k]。
1，按照光的电磁波理论（声音也是波），F（x,y,z,t）函数是服从波动方程的， $\frac{\partial^2 F}{\partial x^2}$ + $\frac{\partial^2 F}{\partial y^2}$ + $\frac{\partial^2 F}{\partial z^2}$ = $\frac{\partial^2 F}{\partial t^2}$ *1/(c*c)【高中没学过】

即 $\frac{\partial^2 F}{\partial x^2}$ + $\frac{\partial^2 F}{\partial y^2}$ + $\frac{\partial^2 F}{\partial z^2}$ - $\frac{\partial^2 F}{\partial t^2}$ *1/(c*c)=0，c是光速=波长λ*频率f，吓死个人，

其实就是F（x,y,z,t）=φ1(x,y,z)*φ2(t),可以对比X[k]=H[k]*E[k].

2，现在说一说，为什么是瞬时功率谱，即很短时间内，信号的变化，从声音来说，可以认为声道空间是微小变化的，即是连续的，可微可导的，也可以认为声道的xyz基本没变化，而声音随时间是周期性的，说到底，瞬时就是细节，细节就是微积分，瞬时就是静态，连续的瞬时静态，就是变化，看一看我们声音和图像的识别，都是先研究静态突出的特征，然后去到连续空间去捕捉匹配，或者看一看我们的偏导数，当x不变时，求y，y不变时，求x，然后去推导整个方程来表达连续时空，哪一个研究不是这样？伟大的人在启示我们什么？以一种问题的解决方式，渗透着他们的经验和习惯，为什么看原著，可能好处在此（钱伟长和叶开沅的《弹性力学》开篇也如此渗透伟大理论背后的习惯），为什么要学习，或许如此。我们真的是在学习伟大的灰色理论吗？20世纪伟大的人都已经掌握这些习惯，我们21世纪的人，是否应该尝试着学习继承下来呢？只是学到一点点也好，好，我们继续学习

理论说，波函数F等于零的各个点不随时间改变，称为驻波，不懂，没关系，继续向后，有的是蓦然回首时，即当φ1(x,y,z)=0时；不管φ2(t)如何变化，F总等于零。F=0的点称为节点。用φ1(x,y,z)*φ2(t)替换波动方程中F（x,y,z,t）,可以得到：

$\frac{\partial^2 }{\partial x^2}$ 【φ1(x,y,z)*φ2(t)】+ $\frac{\partial^2 }{\partial y^2}$ 【φ1(x,y,z)*φ2(t)】+ $\frac{\partial^2 }{\partial z^2}$ 【φ1(x,y,z)*φ2(t)】= $\frac{\partial^2 }{\partial t^2}$ 【φ1(x,y,z)*φ2(t)】*1/(c*c)

因为c是光速=波长λ*频率f，令φ1(x,y,z)=φ1，则

(λ*λ)*φ2(t)*{ $\frac{\partial^2 }{\partial x^2}$ 【φ1】+ $\frac{\partial^2 }{\partial y^2}$ 【φ1】+ $\frac{\partial^2 }{\partial z^2}$ 【φ1】}=φ1* $\frac{\partial^2 }{\partial t^2}$ 【φ2(t)】*1/(f*f)，再整理

(λ*λ)*1/φ1*{ $\frac{\partial^2 }{\partial x^2}$ 【φ1】+ $\frac{\partial^2 }{\partial y^2}$ 【φ1】+ $\frac{\partial^2 }{\partial z^2}$ 【φ1】}=1/φ2(t)* $\frac{\partial^2 }{\partial t^2}$ 【φ2(t)】*1/(f*f)

记 $\frac{\partial^2 }{\partial x^2}$ + $\frac{\partial^2 }{\partial y^2}$ + $\frac{\partial^2 }{\partial z^2}$ 为 $\triangledown 2$ ，称为拉普拉斯算符，则(λ*λ)/φ1* $\triangledown 2$ 【φ1】=1/φ2(t)* $\frac{\partial^2 }{\partial t^2}$ 【φ2(t)】*1/(f*f)

在此 $\frac{\partial^2 }{\partial t^2}$ 【φ2(t)】= $\frac{\mathrm{d^2} }{\mathrm{d} t^2}$ 【φ2(t)】,就像y=f（t）只有二阶导数，没有二阶偏导，所以

(λ*λ)/φ1* $\triangledown 2$ 【φ1】=1/φ2(t)* $\frac{\mathrm{d^2} }{\mathrm{d} t^2}$ 【φ2(t)】*1/(f*f)，为什么波长，x，y，z在左边，而频率和t在右边？

左等右为一常数，令常数为-a^2，为什么?不懂，继续

1/φ2(t)* $\frac{\mathrm{d^2} }{\mathrm{d} t^2}$ 【φ2(t)】*1/(f*f)=-a^2,则 $\frac{\mathrm{d^2} }{\mathrm{d} t^2}$ 【φ2(t)】+a^2*f^2*φ2(t)=0;

这是一个偏微分方程，查高数，得方程的解为：

φ2(t)=exp（-j*a*f*t），这是一个周期性简谐函数，所以t=0，t=1/f,t=2/f,t=3/f,....有

φ2(0)=φ2(1/f)=φ(2/f)=...

1=exp（-j*a）=exp（-j*a*2）=...满足这个等式的条件a=2*PI，所以φ2(t)=exp（-j*2*PI*f*t）

而(λ*λ)/φ1* $\triangledown 2$ 【φ1】=-a^2变化为

$\triangledown 2$ 【φ1】+φ1*（2*PI）^2/(λ*λ)=0,这个就是薛定谔方程，

因为动量p=mv=hf/v=h/v/f=h/λ,此处光速c=v，即e=mc*c=hf所以

$\triangledown 2$ 【φ1】+p*p*φ1*（2*PI）^2/(h*h)=0

$\triangledown 2$ 【φ1】+mv*mv*φ1*（2*PI）^2/(h*h)=0

$\triangledown 2$ 【φ1】+2m*1/2mv*v*φ1*（2*PI）^2/(h*h)=0，动能=1/2mv*v，能量E=动能T+势能V

$\triangledown 2$ 【φ1】+2m*（E-V）*φ1*（2*PI）^2/(h*h)=0，整理得

【-h*h/(8*PI*PI*m)】* $\triangledown 2$ 【φ1】+V*φ1=E*φ1，这个就是薛定谔方程

结束，需要强调的是我们的F（x,y,z,t）=Ψ(x,y,z,t)函数的，薛定谔方程是用来描述微观粒子运动的稳定状态，即微观粒子在空间出现的概率不随时间改变的情况下应用，我们说的每一句话，一个字都是一种稳定状态的波存在，那么是否可以用一个方程来描述这种稳定状态呢？每一个字一旦说出口，他的概率就不会改变了，mfcc只是描述了数字特征，还不是一个方程。我想应该是可以的！

opencv里边的光流理论，也是如此推导的。渐渐发现数学的重要性，用到就去学，从来都不晚！

然后，回过头再去看不懂的。