看论文经常碰到专业领域的词汇,然而有的时候就弄的比较模糊,今天简单总结和贯通一下。
矩,百度一查,:本意是指曲尺,一种基本工具,可以画直角形和方形,也可以测度直线长短或估量角度数,也指法度等。
名字的由来肯定是有意义的,那么概率论里的矩,应该就是度量数据的。
概率论的描述是:矩(moment)是对变量分布和形态特点的一组度量。n阶矩被定义为一变量的n次方与其概率密度函数(Probability Density Function, PDF)之积的积分。
这么一说就懵了,后面还有,变量的一阶原始矩等价于数学期望(expectation)、二至四阶中心矩被定义为方差(variance)、偏度(skewness)和峰度(kurtosis)。
搞故障诊断的童鞋应该突然就嗨了起来,偏度、峰度,原来是三阶、四阶中心距啊,我也是刚刚才打通这条脉络。。。
那么简单说一下,这个阶数,其实就是给数据来个几次方。中心矩里的这个中心,描述的就是数据的均值,衡量的是数据绕着均值蹦跶的程度。
概率论里面就用E(x)来表示变量x的期望。联系到矩在概率论里的定义,那就是变量的n次方对概率密度的积分,这里做的假设就是,变量在t时刻的值出现的概率都是均等的,这样的话,求平均才可以解释的同。因为求平均就是默认的,每个样本的权重都是1/N,这就是概率密度。
因此,再联想一下偏度和峰度的公式,一下子就明白了
偏度,变量的三阶中心矩:
上面u^3就是去均值后的数据的三次方的期望,下面的delta^3,就是为了标准化,源于右侧的公式,这个操作就是将数据z-score标准化,使其均值为0,方差为1,但是并不一定服从标准正态分布。
这么一来就清晰很多了,原来n阶矩就是将数据去均值后,求n次方后的均值。偏度就是三阶标准中心矩,峰度就是四阶标准中心矩。
再补充一下,标准正态分布的峰度为什么是3?
可以这样表示峰度:E(x^4) 令x^2=z,则E(x^4) =E(z^2)
现在是讨论为什么标准正态分布的峰度是3,那么x是均匀分布的,因此 E(z^2)=(E(z))^2+D(z)。由于z=x^2,是自由度为1的卡方分布,卡方分布的均数是自由度,卡方分布的方差是2倍的自由度,因此(E(z))^2=1,D(z)=2,因而E(x^4) =E(z^2)=1+2=3。这是比较好理解的方法。