(最近想以此博客为载体,把学习研究的内容整理一下。程序小白可能会收集各大神分享的精彩内容,在此说明会注明转载的出处,若有侵权,请及时告知。)
本文转载自:http://www.cnblogs.com/xingshansi/p/6527961.html
前言
这几天打算学一学滤波器的相关原理,看的书籍是西蒙.赫金的《自适应滤波器原理》第四版,记录的内容为自己的学习总结,本文主要分为以下四部分:
1)随机过程、确定过程
2)均值、方差、分布函数与概率密度
3)不相关与独立性
4)平稳性与遍历性
内容中不当的地方,还麻烦各位给以指正,内容多有参考他人,对应的链接在文章最后一并给出。
一、随机过程与确定过程
对于一个火车,下一时刻的轨迹已经由铁轨确定了;而对于一个行人,下一刻的落脚点却有各种可能。
简单来说,下一时刻确定的,是确定过程;不确定的,是随机过程。下一刻所有可能,组成了随机变量,即随机变量是各种可能的集合。
给一张示意图:
信号x是一个随机分布,下一刻的值有各种可能;而信号是一个确定过程,下一刻的值由
唯一确定。
既然有各种可能,为什么还要研究随机过程呢?再来一个示意图:
将随机信号x进行直方图统计,通过曲线拟合可以看到:x对应的每一时刻的值都服从正态分布,我们或许可以说:下一时刻,信号x取3的概率大于x取9的概率。由此我们可以相信:对于随机的数据,直方图统计也会包含有价值的信息,so~继续研究它。
二、常用基本概念(针对随机变量描述)
A-均值
给出均值的定义式:
即对于给定时刻,假设所有的可能都给定了,我们不需要像上一张图那样,需要对不同时刻
进行统计,而是直接对
时刻所有可能值统计,得到分布直方图。利用分布的密度函数,从而实现均值的估计。
现实情况是:我们无法得到同一时刻的所有可能,怎么解决这个尴尬?接着往下看。
B-方差
假设是
时刻的均值,则对应的方差定义为:
方差体现了数据围绕期望值的分散情况,真是求之不得,辗转反侧,难怪均值叫期望。
知道均值、方差,并不能唯一确定分布(正态是可以的),还需要一些辅助特性来评定统计的分布特性:
- 偏度(Skew)
-
skew衡量分布的偏斜状况。详细参考:维基百科。
- 峰度(Kurtosis)
kurtosis衡量分布陡峭状况。详细参考:维基百科。
C-分布函数与概率密度
直接对t时刻所有可能值统计,得到分布直方图,直方图面积归一化,对应的曲线就是概率密度,
关于x的积分就是分布函数
。
三、不相关与独立性
给一个示意图:
信号A、B、C、D是四个不同的随机信号:
-
- 当信号A增加时,信号B也在增加,A、B的变化趋势完全一致,可以说A与B正相关;
- 当信号A增加时,信号C在减小,A、C的变化趋势完全相反,可以说A与B负相关;
- 当信号A增加时,信号D可能增加,也可能减小,A、D的变化趋势似乎无关,可以说A与B不相关;
给出协方差定义式:
关于相关的细节讨论,可以参考知乎的答案。
相关矩阵虽然体现了相关性,但协方差数值变化时大时小,因此考虑将其归一化(去均值、除均方差):
从定义式也可以观察:此处的相关是线性相关,而不是一般意义的相关。因此即使不相关,也不过是线性不相关罢了,说的简单点:A、B两信号不相关,则A的取值变化,不对B的取值产生影响。事实上,A-B-C-D四个信号,是
举个反例:在[-1, 1]上均匀分布,
,
,即X与Y不相关,可见所谓的相关与否仅仅针对线性,但很明显他们是二次相关,故二者不独立。
给出相关系数为0.9的两个变量的各自曲线,以及联合分布:
下图从左到右均为联合分布,A、B的相关系数分别为:0.9,-0.9,0,可以看到,以均值为中心,他们对应的正/负/无线性关系。
对应的协方差矩阵分别为:,
,
,协方差矩阵的重要性也就不言而喻了。
四、平稳性与遍历性
先来一张图:
对于图中数据,我们不会认为:右边数据服从左边的分布,我们更倾向认为:右图前段数据服从一个分布,后段数据服从一个分布。可以理解为:该信号为非平稳,或者说:短时平稳。
平稳性:就是时间序列统计特性于时间平移的不变性。
翻译一下上面这句话:对于时刻,所有可能对应集合Set0,对于
时刻,所有可能对应集合Set1,...,不同时刻的集合,其统计特性一致。
为什么关于时间需要统计特性不变呢?因为随机变量,取任何值都不确定,只能基于大数据的统计特性进行描述,而如果该时刻或者历史时间段的统计信息,对下一时刻没有任何的借鉴意义,即:统计特性只对统计数据自身成立,统计的意义又在哪里呢?
A-严平稳
严平稳需要统计性质关于之间严格不变,给出定义:
对于所有可能的n,所有可能的
和所有可能的k, 当
和
相同时,我们称其为严平稳.
基于两点,我们通常不用该特性:
- 不同时刻,一阶矩、二阶矩...N阶矩,完全一致,则该过程为严平稳,计算量太大,甚至没有终止;
- 常用的统计特性是均值、协方差矩阵,这个只涉及二阶矩,满足通常的需求;
这也是为什么宽/弱平稳,是均值、方差的一致性,而不必三阶矩、四阶矩一致的原因之一。
B-弱/宽平稳
上面已经略有提及,在此给出宽平稳的特性:
- 期望不随时间变化,是常数;
- 协方差函数仅与时间差有关,与时间的具体时刻无关
我们称这样的过程为宽平稳随机过程。
为什么这么定义?举个例子:
设序列,是互不相关的随机变量序列,且都
,则
这就是一个宽平稳的例子,其实第二个特性就是对二阶矩的限定。
啰嗦一句:
- 分布一致,则矩一定一致,故严平稳一定是宽平稳(错,因为矩可能不存在,存在时则一定是)。
- 联合分布服从多元正态分布时,二者等价,因为二阶矩已经完全可以确定正态分布。
C-遍历性
遍历性,即各态历经性,真是顾名思义。一个时刻的所有可能,现实中天知道会是什么?除非这样:
数量足够多的机器,假设10万台,性能完全一致,同时刻工作,同时刻停止,将这样一个小的时间段认为一个时间点,然后统计机器损坏的数量M,
故障率 = M/100000.
这样基于大样本的统计特性,近似可以看作其分布特性,但这里有两个困难:
1)性能完全一致,这个本身就做不到;2)现实中,很难有同一时刻,样本集合几乎遍历的情况;
能不能折中一下呢?假设一段时间内,所有可能的集合元素,都发生了(即遍历),利用时间统计特性,近似等价。嗯,用时间换空间,是个不错的主意。
遍历性对于时间序列的意义,类似于大数定理对于一般随机变量的意义。
首先回顾一下:对于一个时间序列,样本均值如何定义:
(Eq-1)
其中为时间序列
的一条路径,不妨设为某个股票的日收益率。
样本自相关函数、样本自相关系数等等,类似。
即:实际应用中,用样本的时间均值,代替集合的统计均值,即对于某个时刻的所有可能,我们认为这些可能在一段时间内,会全部出现,这就是遍历性,也叫各态历经性。
回顾大数定律:
(Eq-2)
Eq-1是时间取均值,Eq-2是空间取均值。可以说,随机过程遍历性假设若不成立,应用中的统计总是管中窥豹,就像调研中的小样本,得出的结论看似严谨,实则荒谬。
参考: