给定线性模型 y = Φ x + w y = \Phi x + w y=Φx+w,其中 y y y 是观测向量, Φ \Phi Φ 是设计矩阵, x x x 是未知参数向量, w w w 是误差向量。假设误差向量 w w w 满足独立同分布的高斯分布,即 w ∼ N ( 0 , σ 2 I ) w \sim \mathcal{N}(0, \sigma^2I) w∼N(0,σ2I),其中 σ 2 \sigma^2 σ2 是误差方差。
为了获得参数 x x x 的无偏估计,我们可以使用最小二乘法。最小二乘法的目标是最小化观测值 y y y 与模型预测值 y ^ = Φ x ^ \hat{y} = \Phi \hat{x} y^=Φx^ 之间的差异。这可以通过最小化残差平方和来实现。
残差定义为 r = y − Φ x ^ r = y - \Phi \hat{x} r=y−Φx^,其中 x ^ \hat{x} x^ 是参数向量的估计值。最小二乘法的目标是最小化残差平方和,即 J ( x ^ ) = ∣ r ∣ 2 = ∣ y − Φ x ^ ∣ 2 J(\hat{x}) = |r|^2 = |y - \Phi \hat{x}|^2 J(x^)=∣r∣2=∣y−Φx^∣2。
为了找到最小化 J ( x ^ ) J(\hat{x}) J(x^) 的解析解,我们可以对残差平方和进行求导并令导数等于零。
首先,我们对 J ( x ^ ) J(\hat{x}) J(x^) 进行展开:
J ( x ^ ) = ( y − Φ x ^ ) T ( y − Φ x ^ ) J(\hat{x}) = (y - \Phi \hat{x})^T(y - \Phi \hat{x}) J(x^)=(y−Φx^)T(y−Φx^)
接下来,我们对 J ( x ^ ) J(\hat{x}) J(x^) 求导:
∂ J ( x ^ ) ∂ x ^ = − 2 Φ T ( y − Φ x ^ ) \frac{\partial J(\hat{x})}{\partial \hat{x}} = -2\Phi^T(y - \Phi \hat{x}) ∂x^∂J(x^)=−2ΦT(y−Φx^)
将导数等于零,得到:
∂ J ( x ^ ) ∂ x ^ = − 2 Φ T ( y − Φ x ^ ) = 0 \frac{\partial J(\hat{x})}{\partial \hat{x}} = -2\Phi^T(y - \Phi \hat{x}) = 0 ∂x^∂J(x^)=−2ΦT(y−Φx^)=0
将方程重新排列,得到正规方程:
Φ T Φ x ^ = Φ T y \Phi^T\Phi \hat{x} = \Phi^T y ΦTΦx^=ΦTy
解这个线性方程组,我们可以得到参数向量 x ^ \hat{x} x^ 的无偏估计。
接下来,我们可以计算 Fisher 信息矩阵。根据最小二乘估计的性质,估计的协方差矩阵可以通过以下公式计算:
C o v ( x ^ ) = σ 2 ( Φ T Φ ) − 1 Cov(\hat{x}) = \sigma^2(\Phi^T\Phi)^{-1} Cov(x^)=σ2(ΦTΦ)−1
其中, σ 2 \sigma^2 σ2 是误差方差。
Fisher 信息矩阵是协方差矩阵的逆矩阵,因此可以得到:
I ( x ^ ) = ( Φ T Φ ) − 1 I(\hat{x}) = (\Phi^T\Phi)^{-1} I(x^)=(ΦTΦ)−1
这就是通过最小二乘估计得到的参数向量 x ^ \hat{x} x^ 的 Fisher 信息矩阵。
需要注意的是,上述推导中假设误差向量 w w w 是满足独立同分布的高斯分布。如果误差具有其他分布或