自适应滤波器:随机过程基础

(最近想以此博客为载体,把学习研究的内容整理一下。程序小白可能会收集各大神分享的精彩内容,在此说明会注明转载的出处,若有侵权,请及时告知。)

本文转载自:http://www.cnblogs.com/xingshansi/p/6527961.html

 

前言

这几天打算学一学滤波器的相关原理,看的书籍是西蒙.赫金的《自适应滤波器原理》第四版,记录的内容为自己的学习总结,本文主要分为以下四部分:

  1)随机过程、确定过程

  2)均值、方差、分布函数与概率密度

  3)不相关与独立性

  4)平稳性与遍历性

内容中不当的地方,还麻烦各位给以指正,内容多有参考他人,对应的链接在文章最后一并给出。

一、随机过程与确定过程

对于一个火车,下一时刻的轨迹已经由铁轨确定了;而对于一个行人,下一刻的落脚点却有各种可能。

简单来说,下一时刻确定的,是确定过程;不确定的,是随机过程。下一刻所有可能,组成了随机变量,即随机变量是各种可能的集合

给一张示意图:

                                       

信号x是一个随机分布,下一刻的值有各种可能;而信号y是一个确定过程,下一刻的值由y=\sin (t)唯一确定。

既然有各种可能,为什么还要研究随机过程呢?再来一个示意图:

                                  

将随机信号x进行直方图统计,通过曲线拟合可以看到:x对应的每一时刻的值都服从正态分布,我们或许可以说:下一时刻,信号x取3的概率大于x取9的概率。由此我们可以相信:对于随机的数据,直方图统计也会包含有价值的信息,so~继续研究它。

 

二、常用基本概念(针对随机变量描述)

  A-均值

给出均值的定义式:

                                                          E[x(t)]=\int_{-\infty}^{+\infty} x f_{X}(x ; t) d x

即对于给定时刻t,假设所有的可能都给定了,我们不需要像上一张图那样,需要对不同时刻t进行统计,而是直接对t时刻所有可能值统计,得到分布直方图。利用分布的密度函数,从而实现均值的估计。

现实情况是:我们无法得到同一时刻的所有可能,怎么解决这个尴尬?接着往下看。

  B-方差

假设\mu(t)t时刻的均值,则对应的方差定义为:

                                                        D[x(t)]=\int_{-\infty}^{+\infty}(x-\mu(t))^{2} f_{X}(x ; t) d x

方差体现了数据围绕期望值的分散情况,真是求之不得,辗转反侧,难怪均值叫期望

知道均值方差,并不能唯一确定分布(正态是可以的),还需要一些辅助特性来评定统计的分布特性:

  • 偏度(Skew)
  •              

skew衡量分布的偏斜状况。详细参考:维基百科

  • 峰度(Kurtosis)

                                            

kurtosis衡量分布陡峭状况。详细参考:维基百科

  C-分布函数与概率密度

直接对t时刻所有可能值统计,得到分布直方图,直方图面积归一化,对应的曲线就是概率密度f(x ; t)f(x ; t)关于x的积分就是分布函数F(x ; t)

 

三、不相关与独立性

给一个示意图:

                                         

信号A、B、C、D是四个不同的随机信号:

    • 当信号A增加时,信号B也在增加,A、B的变化趋势完全一致,可以说A与B正相关;
    • 当信号A增加时,信号C在减小,A、C的变化趋势完全相反,可以说A与B负相关;
    • 当信号A增加时,信号D可能增加,也可能减小,A、D的变化趋势似乎无关,可以说A与B不相关;

给出协方差定义式:

                                                   

关于相关的细节讨论,可以参考知乎的答案

相关矩阵虽然体现了相关性,但协方差数值变化时大时小,因此考虑将其归一化(去均值、除均方差):

                                                 

从定义式也可以观察:此处的相关是线性相关,而不是一般意义的相关。因此即使不相关,也不过是线性不相关罢了,说的简单点:A、B两信号不相关,则A的取值变化,不对B的取值产生影响。事实上,A-B-C-D四个信号,是

举个反例:X在[-1, 1]上均匀分布,Y=X^{2}\operatorname{Cov}(X, Y)=E(X, Y)-E(X) E(Y)=E\left(X^{3}\right)=0,即X与Y不相关,可见所谓的相关与否仅仅针对线性,但很明显他们是二次相关,故二者不独立。 

给出相关系数为0.9的两个变量的各自曲线,以及联合分布:

                                                 

下图从左到右均为联合分布,A、B的相关系数分别为:0.9,-0.9,0,可以看到,以均值为中心,他们对应的正/负/无线性关系。

                       

对应的协方差矩阵分别为:S_{1}=[1,0.9 ; 0.9,1]S_{2}=[1,-0.9 ;-0.9,1]S_{3}=[1,0 ; 0,1],协方差矩阵的重要性也就不言而喻了。

 

四、平稳性与遍历性

先来一张图:

                                                

对于图中数据,我们不会认为:右边数据服从左边的分布,我们更倾向认为:右图前段数据服从一个分布,后段数据服从一个分布。可以理解为:该信号为非平稳,或者说:短时平稳

平稳性:就是时间序列统计特性于时间平移的不变性。

翻译一下上面这句话:对于t_{0}时刻,所有可能对应集合Set0,对于t_{1}时刻,所有可能对应集合Set1,...,不同时刻的集合,其统计特性一致。

为什么关于时间需要统计特性不变呢?因为随机变量,取任何值都不确定,只能基于大数据的统计特性进行描述,而如果该时刻或者历史时间段的统计信息,对下一时刻没有任何的借鉴意义,即:统计特性只对统计数据自身成立,统计的意义又在哪里呢?

  A-平稳

严平稳需要统计性质关于之间严格不变,给出定义:

对于所有可能的n,所有可能的t_{1}, t_{2}, \dots t_{n}和所有可能的k, 当Z_{t 1}, \ldots Z_{t n}Z_{t 1-k}, \ldots Z_{t n-k}相同时,我们称其为严平稳.

基于两点,我们通常不用该特性:

  • 不同时刻,一阶矩、二阶矩...N阶矩,完全一致,则该过程为严平稳,计算量太大,甚至没有终止;
  • 常用的统计特性是均值、协方差矩阵,这个只涉及二阶矩,满足通常的需求;

这也是为什么宽/弱平稳,是均值、方差的一致性,而不必三阶矩、四阶矩一致的原因之一。

  B-弱/宽平稳

 上面已经略有提及,在此给出宽平稳的特性:

  • 期望不随时间变化,是常数;
  • 协方差函数仅与时间差有关,与时间的具体时刻无关

我们称这样的过程为宽平稳随机过程。

为什么这么定义?举个例子:

设序列\left\{X_{1}, X_{2}, X_{3} \ldots\right\},是互不相关的随机变量序列,且都\sim N\left(0, \sigma^{2}\right),则

                                              

这就是一个宽平稳的例子,其实第二个特性就是对二阶矩的限定。

啰嗦一句

  • 分布一致,则矩一定一致,故严平稳一定是宽平稳(错,因为矩可能不存在,存在时则一定是)。
  • 联合分布服从多元正态分布时,二者等价,因为二阶矩已经完全可以确定正态分布。

  C-遍历性

 遍历性,即各态历经性,真是顾名思义。一个时刻的所有可能,现实中天知道会是什么?除非这样:

数量足够多的机器,假设10万台,性能完全一致,同时刻工作,同时刻停止,将这样一个小的时间段认为一个时间点,然后统计机器损坏的数量M,

                                                   故障率 = M/100000.

这样基于大样本的统计特性,近似可以看作其分布特性,但这里有两个困难:

1)性能完全一致,这个本身就做不到;2)现实中,很难有同一时刻,样本集合几乎遍历的情况;

 能不能折中一下呢?假设一段时间内,所有可能的集合元素,都发生了(即遍历),利用时间统计特性,近似等价。嗯,用时间换空间,是个不错的主意

遍历性对于时间序列的意义,类似于大数定理对于一般随机变量的意义。

首先回顾一下:对于一个时间序列\left\{X_{t}, t=1,2, \dots\right\},样本均值如何定义:

                                                                            \mu=\frac{1}{T} \sum_{t=1}^{T} x_{t}                                                                                          (Eq-1)

其中x_{t}为时间序列X_{t}的一条路径,不妨设为某个股票的日收益率。

样本自相关函数、样本自相关系数等等,类似。

即:实际应用中,用样本的时间均值,代替集合的统计均值,即对于某个时刻的所有可能,我们认为这些可能在一段时间内,会全部出现,这就是遍历性,也叫各态历经性

回顾大数定律:

                                                                   E(X) \approx \frac{1}{n}\left(x^{1}+\dots+x^{n}\right)                                                                           (Eq-2)

Eq-1是时间取均值,Eq-2是空间取均值。可以说,随机过程遍历性假设若不成立,应用中的统计总是管中窥豹,就像调研中的小样本,得出的结论看似严谨,实则荒谬。

 

参考:

平稳性、遍历性:https://www.zhihu.com/question/21982358

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值