回归分析
一元线性回归分析
基本定义
假设随机变量y和变量x之间服从以下线性关系
y=α+βx+ε
现存在n个值
yi=α+βxi+εi
假设
εi
相互独立而且满足
εi
~
N(0,σ2),i=1,...,n,
则称变量y和x服从一元线性回归模型(或一元线性正态回归模型)
未知参数估计
(1) (α,β)的最小二乘估计
偏微分最小估计
∑ni=1(yi−α⌢−β⌢xi)2=maxα,β(yi−α−βxi)2
对左边求偏导,得到
α⌢=y¯−β⌢x¯
,
β⌢=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2
(2) (α,β)的极大似然估计
由于
yi相互独立,且yi
~
N(α+βxi,σ2)
则联合概率密度为
L=∏Ni=11σ2π√exp[−12σ2(yi−α−βxi)2]
=(1σ2π√)nexp[−12σ2∑ni=1(yi−α−βxi)2]
求上述方程最大值,等价于求下述最小值
∑ni=1(yi−α⌢−β⌢xi)2
所以又回归到最小二乘估计
(3) σ2 的估计
1)由
μ1=E(Y)=μ
μ2=E(Y2)=D(Y)+[E(Y)]2=σ2+μ2
得到:
μ⌢=α⌢+β⌢x¯
σ2=1n∑ni=1Y2i⌢−Y¯¯¯2=1n∑ni=1(yi−α⌢−β⌢xi)2
=1n∑ni=1(yi−y¯)2−β(1n∑ni=1(xi−x¯)2)
多元线性回归分析
基本定义
y=β0+β1x1+....+βmxm+ε
最后有
yi
~
N(β0+β1x1i+....+βmxmi,σ2)
未知参数估计
常常用最小二乘法寻找
β=(β0,.....,βm)T的估计值β⌢,使满足
∑ni=1(yi−∑nj=1xjiβj⌢)2=minβ∑ni=1(yi−∑mj=0xjiβj)2
对各自(
xki
)求偏导,最后得到
∑ni=1yixki=∑ni=1∑mj=0xjixkiβj⌢=∑ni=1(∑mj=0xjixki)βj⌢
矩阵表示
XTY=(XTX)β⌢
可得:
β⌢=(XTX)−1XTY
高阶统计量理论
高阶统计量(HOS)理论来自对数学、统计学和信号处理等领域的研究.高阶统计量理论是在二阶统计量(相关函数和功率谱)基础上发展起来,它克服了二阶统计量因缺少相位信息而无法直接处理非最小相位系统的固有缺陷,并包含了更丰富的内容。目前,高阶统计量方法已在雷达、声呐、通讯和故障诊断等领域获得了大量的应用。
高阶统计量定义
随机变(向)量的特征函数
特征函数法是概率论和数理统计的主要分析工具之一
定义1:
1)第一特征函数:
ϕ(w)=∫∞−∞f(x)eiwxdx
特征函数是密度f(x)的傅里叶变换,因为f(x)>=0,所以原点最大值:
l
ϕ(w)
l<=
ϕ(0)=1
2)第二特征函数: ψ(w)=ln[ϕ(w)]
定义2:
推广到n元,X=
[x1,x2,...,xn]T
,具有联合概率密度f(X)
即换为
ϕ(w1,...,wn)和ψ(w1,...,wn)
定义3:(K阶矩)
随机变量x的第一特征函数
ϕ(w)在原点的k阶导数等于随机变量x的k阶矩mk
,即
mk=ϕ(k)(w)|w=0=E[xk]=∫∞−∞xkf(x)dx
定义4:(k阶累计量)
随机变量x的第二特征函数
ψ(x)在原点的k阶导数等于随机变量x的k阶累积量ck
,即
ck=ψ(k)(w)|w=0
高阶累积量的定义和性质
定义:
在数学中,平稳随机过程(Stationary random process)或者严平稳随机过程(Strictly-sense stationary random process),又称狭义平稳过程,是在固定时间和位置的概率分布与所有时间和位置的概率分布相同的随机过程:即随机过程的统计特性不随时间的推移而变化。这样,数学期望和方差这些参数也不随时间和位置变化
设{x(n)}是均值为零的k阶平稳随机过程,
则该过程的k阶矩定义为:
mkx(τ1,...,τk−1)=mom{x(n),x(n+τ1),x(n+τk−1)}
K阶累积量:
ckx(τ1,...,τk−1)=cum{x(n),x(n+τ1),x(n+τk−1)}
性质:
1)
假设λi为常数
,则
cum{λix1,...,λkxk}=∏ki=1λicum{x1,...,xk}
2)累积量关于变量对称,即cum内部顺序可任意打乱
3)可加性,即
cum{x0+y0,x1,....}=cum{x0,x1,....}+cum{y0,x1,....}
4)如果a为常数,则
cum{x0+a,x1,....}=cum{x0,x1,....}
5)如果随机变量
xi,yi相互独立
,则
cum{x1+y1,....,xk+yk}=cum{x1,....,xk}+cum{y1,....,yk}
6)如果随机变量中某个子集与其补集相互独立,则
cum{x1,....,xk}=0
高斯过程的高阶累积量
随机变量x服从高斯分布
N(0,σ2)
,则其概率密度函数为
f(x)=12π−−√σe−x2/2σ2
则第一特征函数为:
ϕ(w)=e−σ2w22
第二特征函数为:
ψ(w)=ln(ϕ(w))=−σ2w22
高斯随机过程
假设n维高斯随机向量
x=[x1,...,xn]T
,
均值向量为
μ=[μ1,...,μn]T
,
协方差矩阵为
Σn×n
,
其中
Σi,j=E{(xi−/mui)(xj−/muj)}
图中
a为μ
由于
ψ(w)
是关于变量
wi
的二次多项式,因此
ψ(w)
关于变量
wi
的三阶以上导数等于0,则x的三阶以上累积量等于零。进一步,对于高斯随机过程x(n),其阶次大于2的k阶累积量也为零,即
ckx(m1,...,mk−1)=0,k>=3
因此高阶累积量可以自动抑制高斯背景噪声的影响
高阶累积量与非线性系统
之间的相互耦合信息,使不同频率成分间由于相位的相关性而相互耦合,是能量分布由于非线性耦合而发生变化的反映,因此从二阶响应中可以提取二阶非线性相位耦合信息
双谱定义
定义:
实际中由于任何高斯过程的高阶累积量均等于零,而高阶矩却无此优点,所以常常使用累积量及其谱,它在理论上可完全抑制高斯有色噪声的影响,习惯上将高阶累积谱简称作高阶谱,最常用的高阶谱是三阶谱(双谱)和四阶谱(三谱)