统计量
简述
一阶统计量和二阶统计量是统计学中常用的两类统计量。一阶统计量是指只考虑随机变量本身的统计量,而二阶统计量则是指考虑随机变量之间关系的统计量。
一阶统计量
一阶统计量是指只考虑随机变量本身的统计量,通常包括以下几种:
-
均值:随机变量取值的期望值。
μ = 1 n ∑ i = 1 n x i \mu = \frac{1}{n} \sum_{i=1}^{n} x_i μ=n1i=1∑nxi -
方差:随机变量取值与均值的偏差的平方的期望值。
σ 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 σ2=n1i=1∑n(xi−μ)2
-
标准差:方差的平方根。
σ = 1 n ∑ i = 1 n ( x i − μ ) 2 \sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2} σ=n1i=1∑n(xi−μ)2 -
中位数:随机变量取值从小到大排列后,居中的那个取值。
-
众数:随机变量取值出现频率最高的那个取值。
二阶统计量
二阶统计量是指考虑随机变量之间关系的统计量,通常包括以下几种:
-
协方差:两个随机变量取值之间的线性相关性。
c o v ( X , Y ) = ∑ x , y ( x − μ x ) ( y − μ y ) P ( X = x , Y = y ) = 1 n ∑ x , y ( x − μ x ) ( y − μ y ) \begin{align*} cov(X, Y) &= \sum_{x, y} (x - \mu_x)(y - \mu_y) P(X = x, Y = y) \\ &= \frac{1}{n} \sum_{x, y} (x - \mu_x)(y - \mu_y) \end{align*} cov(X,Y)=x,y∑(x−μx)(y−μy)P(X=x,Y=y)=n1x,y∑(x−μx)(y−μy)
-
相关系数:协方差与两个随机变量标准差的乘积的比值,反映了两个随机变量之间的线性相关程度。
ρ x y = Cov ( X , Y ) σ ( X ) ⋅ σ ( Y ) \rho_{xy} = \frac{\text{Cov}(X, Y)}{\sigma(X) \cdot \sigma(Y)} ρxy=σ(X)⋅σ(Y)Cov(X,Y) -
自协方差:随机变量取值与自身在不同时间点的取值之间的相关性。针对于时间序列
ACov ( X t , X s ) = 1 n ∑ i = 1 n − ( t + s ) ( X i + t − μ ) ( X i + s − μ ) \text{ACov}(X_t, X_s) = \frac{1}{n} \sum_{i=1}^{n-(t+s)} (X_{i+t} - \mu)(X_{i+s} - \mu) ACov(Xt,Xs)=n1i=1∑n−(t+s)(Xi+t−μ)(Xi+s−μ) -
自相关系数:自协方差与随机变量标准差的乘积的比值,反映了随机变量在不同时间点的相关程度。针对于时间序列
ACorr ( X t , X s ) = ACov ( X t , X s ) Var ( X t ) ⋅ Var ( X s ) \text{ACorr}(X_t, X_s) = \frac{\text{ACov}(X_t, X_s)}{\sqrt{\text{Var}(X_t) \cdot \text{Var}(X_s)}} ACorr(Xt,Xs)=Var(Xt)⋅Var(Xs)ACov(Xt,Xs)
应用
在SENet中采用全局平均池化利用一阶特征,从而产生了Channel Attention,但是其忽略了高于一阶统计量的信息。在Is Second-order Information Helpful for Large-scale Visual Recognition?和Bilinear CNN Models for Fine-grained Visual Recognition的结果显示,在深度卷积神经网络中,采用二阶统计量比一阶统计量更具有鉴别性的表示。
在SAN中则通过对Channel Attention进行改进,利用二阶统计量协方差计算各个通道的重要性,提出Second-order Channel Attention (SOCA)。