Estimation Theory 学习笔记 [Steven M. Kay][ch.1-ch.3]

justnoob

已于 2022-06-06 15:31:16 修改

阅读量334

点赞数 1

分类专栏：参数估计文章标签：学习机器学习概率论

于 2022-06-06 15:19:22 首次发布

本文链接：https://blog.csdn.net/justnoob/article/details/125146823

版权

参数估计专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Estimation Theory [Steven M. Kay] 学习笔记

前前言

#个人学习笔记 #未考虑自己以外的读者体验 #有错请指正
教材：Steven M. Kay, Fundamentals of statistical signal processing: estimation theory[M]. Prentice-Hall, Inc., 1993.

Estimation Theory

前言

primary focas: 获得可以在数字计算机上运算的最优估计算法
data sets 是连续时间信号的采样，或者数据点序列
前序学科：数字信号处理、概率和随机过程、线性和矩阵算数
overview：2-9章是经典估计，10-13是Bayesian估计。先讨论标量参数，再拓展到矢量参数。

Chapter 1

1.2 估计的数学问题

PDF以未知数 $\theta$ 为参数。因此有一族PDF，当参数 $\theta$ 不同，数据集合(data set)的值不同。

用分号表示这种关系：
$p(x[0],x[1],....x[n];\theta)$
因此，可以根据 $\boldsymbol x$ 的值推断出 $\hat \theta$ 的值。
实际问题中并没有给出PDF，而是要选择一个不仅与问题的约束和先验知识一致的，而且在数学上也容易处理的PDF。
classical estimation&Bayesian estimation
- classical estimation：感兴趣的参数假定为确定的但是未知
- Bayesian estimation：感兴趣的参数是随机变量
  
  如：先验地知道，感兴趣的参数 $\theta$ 在是 $[a, b]$ 中的一个随机变量， $\theta$ 不再是一个确定的参数，而且指定PDF， $\theta$ 即可在 $[a, b]$ 之间均匀分布。
  
  则数据由联合PDF描述：
$p(\boldsymbol x,\theta)=p(\boldsymbol x |\theta)p(\theta)$

其中， $p(\theta)$ 是先验PDF，概括了在数据观测以前关于 $\theta$ 的先验知识， $p(\boldsymbol x|\theta)$ 是条件PDF，概括了在已知 $\theta$ 的条件下由数据 $\boldsymbol x$ 提供的知识。

Chapter 2 最小方差无偏估计

2.1&2.2

利用最小均方误差MSE（通常导出的是不可实现的估计量）作为更为自然的误差准则
最小方差无偏估计（MVU）存在：利用Cramer-Rao Bound和充分统计概念，求出估计器

MVU不存在：更多限制条件（数据为线性数据）的估计器更容易实现，但是是次优的评估器

2.3 无偏估计

定义：参数 $\theta$ 是在区间 $a<\theta<b$ 上的任何值，无论 $\theta$ 的真值是多少，估计量的均值都等于真值。

数学表示：如果
$E(\hat \theta)=\theta,\ a<\theta<b$
那么估计器 $\hat\theta$ 是无偏的，其中 $(a, b)$ 表示 $\theta$ 的可能取值范围。注：对所有 $\theta$ ， $E(\hat\theta)=\theta$ 。
令 $\hat\theta=g(x)$ ，其中 $\boldsymbol x=[x[0],x[1],...,x[N-1]]^T$ ，这要求
$E(\hat\theta)=\int g(\bold x)p(\boldsymbol x;\theta)=\theta,\ for\ all\ \theta$
如果估计器是有偏的，则偏差定义为
$b(\theta)=E(\hat\theta)-\theta$

2.4 最小方差准则

均方误差mean square error定义
$\begin{aligned} \mathrm{mse}(\hat\theta)&=E[(\hat\theta-\theta)^2] \\ &=E\{[(\hat\theta-E(\hat\theta))+(E(\hat\theta)-\theta)]^2\} \\ &=\mathrm{var}(\hat\theta)+[E(\hat\theta)-\theta)]^2 \\ &=\mathrm{var}(\hat\theta)+b^2(\theta) \end{aligned}$
任何与偏差 $b(\theta)$ 有关的估计器都不可实现。
mse是不可实现的估计器，因为不可写成数据的唯一函数。
MSE不可用 $\rightarrow$ 约束 $b(\theta)=0$ ，求 $\mathrm{var}(\theta)$ 最小的估计器。 $\Rightarrow$ 最小方差无偏估计MVU

2.5 MVU的存在性

MVU不一定存在

在这里插入图片描述

2.6 确定最小方差无偏估计

确定CRLB，然后检查是否有 $\hat\theta$ 满足CRLB（chapter3、4）
应用RBLS定理（chpter5）
进一步限制不仅是无偏的们还是线性的，然后在这些限制中找出最小方差无偏估计（chapter6）

2.7 拓展到矢量

未知参数矢量为 $\boldsymbol{\theta}=[\theta_1 \theta_2...\theta_p]^T$ ，则无偏估计器 $\boldsymbol{\hat\theta}=[\hat\theta_1\hat\theta_2...\hat\theta_p]^T$ 满足
$E(\hat\theta_i)=\theta_i\quad a_i<\theta_i<b_i$
定义
$E(\hat{\boldsymbol{\theta}})=\left[ \begin{array}{c} E\left(\hat{\theta}_{1}\right) \\ E\left(\hat{\theta}_{2}\right) \\ \vdots \\ E\left(\hat{\theta}_{p}\right) \end{array} \right]$

也可定义为
$E(\hat{\boldsymbol\theta})=\boldsymbol \theta$

Chapter 3

3.1&3.2

CRLB可以确定一个estimator是MVU，或者给估计器性能比较一个benchmark。
如果不存在可以到达CRLB的估计器，可以渐进达到（in chapter 7）
1. 标量参数的CRLB（3.6），如果满足（3.7）则可以达到下界；
2. 另一种确定CRLB（3.12）
3. 估计参数是一个函数时CRLB（3.16）

3.3 估计器精度考虑

估计精度与PDF直接相关：PDF对参数的依赖性越强，所得估计精度越高。
PDF作为未知参数的函数时（ $\mathbf{x}$ 固定），为似然函数。
似然函数的尖锐程度决定了估计未知参数的精度。用对数似然函数的负二阶导数度量尖锐性。

对数似然函数的平均曲率：
$-E\left[\frac{\partial^{2} \ln p(x[0] ; A)}{\partial A^{2}}\right]$

3.4 CRLB

定理：

正则条件——假设PDF $p(\boldsymbol x;\theta)$ 满足
$E\left[\frac{\partial \ln p(\boldsymbol x ; \theta)}{\partial \theta}\right]=0\quad for\ all\ \theta$
其中，期望是对 $p(\mathbf x;\theta)$ 求得。

下界——则任何无偏估计器 $\hat\theta$ 的方差一定满足
$\operatorname{var}(\hat{\theta}) \geqslant \frac{1}{-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right]}\tag{3.6}$
其中，导数是在 $\theta$ 的真值处计算。

MVUE——对于某个函数 $g$ 和 $I$ ，当且仅当
$\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}=I(\theta)(g(\mathbf{x})-\theta)\tag{3.7}$
时，对所有 $\theta$ 达到下界的unbiased estimator可求。这个估计器就是 $\hat\theta=g(\mathbf x)$ ，且是MVUE，最小方差是 $\frac{1}{I(\theta)}$ .
上面的数学期望还可以由下式给出
$E\left[\frac{\partial^2 \ln p(\boldsymbol x ; \theta)}{\partial \theta^2}\right]=\int \frac{\partial^2 \ln p(\mathbf{x} ; \theta)}{\partial \theta^2}p(\mathbf x;\theta) \mathrm d \mathbf x$
Fisher Information—— $I(\theta)$
$I(\theta)=-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right]$
直观理解：信息越多，下限越低。具有信息测度的基本性质：
1. 非负的
2. 独立观测是可加的
对于无法达到CRLB下限条件的例子中，不存在无偏且达到CRLB的估计器。但是MVU仍可能存在，目前只是无法确定MVU存在与否，Chapter5的充分统计量将解决此条件下MVU如果存在并如何求问题。
Efficient——达到CRLB的估计器称为efficient。
另一种CRLB表示：
$\operatorname{var}(\hat{\theta}) \geqslant \frac{1}{E\left[\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2}\right]}\tag{3.12}$
因为恒等式 $E\left[\left(\frac{\partial \ln p(\mathbf{x} ; \theta)}{\partial \theta}\right)^{2}\right]=-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right]$
由于fisher信息对于独立观测是可加的，则对 $N$ 个IID观测的CRLB是单次观测的 $\frac{1}{N}$ 。

3.5 WGN中的一般CRLB

Example： $x[n]=s[n;\theta]+w[n] \quad n=0,1,...,N-1$
Example3.5： $s[n;f_0]=A\cos(2\pi f_0n+\phi) \quad 0<f_0<\frac{1}{2}$

3.6 参数变形

已知参数 $\theta$ 的CRLB，计算 $\alpha=g(\theta)$ 的CRLB：
$\operatorname{var}(\hat{\alpha}) \geqslant \frac{\left(\frac{\partial g}{\partial \theta}\right)^{2}}{-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \theta)}{\partial \theta^{2}}\right]} \tag{3.16}$
非线性变换会破坏估计器的有效性。线性（仿射affine）变换能够保持有效性。

即： $\hat\theta$ 是 $\theta$ 的有效估计器，则 $g(\theta)=a\theta+b$ 的有效估计器满足 $\widehat{g(\theta)}=g(\hat\theta)=a\hat\theta+b$ .
对于非线性变换，如果数据量足够大，则估计器的有效性也可以近似保持。

在这里插入图片描述

3.7 拓展到矢量

对于向量 $\boldsymbol\theta=[\theta_1 \theta_2\cdots\theta_p]^T$ ，则无偏估计器 $\hat{\boldsymbol\theta}$ 的下界为
$\operatorname{var}\left(\hat{\theta}_{i}\right) \geq\left[\mathbf{I}^{-1}(\boldsymbol\theta)\right]_{i i}$
$\boldsymbol \theta$ 中的第 $i$ 个参数的下界为信息矩阵的转置矩阵的 $[i, i]$ 个元素。

其中，费雪信息矩阵 $I(\boldsymbol\theta)$ 为
$[\mathbf{I}(\boldsymbol{\theta})]_{i j}=-E\left[\frac{\partial^{2} \ln p(\boldsymbol{x} ; \boldsymbol{\theta})}{\partial \theta_{i} \partial \theta_{j}}\right]$
两点：
1. 估计参数越多，CRLB越大。
2. $x [n]$ 对不同参数的变化敏感度不同。
定理

正则条件——假设PDF $p(\boldsymbol x;\boldsymbol \theta)$ 满足
$E\left[\frac{\partial \ln p(\boldsymbol x ; \boldsymbol\theta)}{\partial \boldsymbol\theta}\right]=0\quad for\ all\ \boldsymbol\theta$
其中，期望是对 $p(\boldsymbol x;\boldsymbol \theta)$ 求得。

下界——任何无偏估计 $\hat{\boldsymbol \theta}$ 的协方差矩阵满足
$\mathbf{C}_{\hat{\theta}}-\mathrm{I}^{-1}(\boldsymbol{\theta}) \geqslant \mathbf{0}$
其中$\geqslant \mathbf{0} $解释为矩阵是半正定的。

费雪信息矩阵 $\mathbf I(\boldsymbol\theta)$ ——
$[\mathbf{I}(\boldsymbol{\theta})]_{ij}=-E\left[\frac{\partial^{2} \ln p(\mathbf{x} ; \boldsymbol{\theta})}{\partial \theta_{i} \partial \theta_{j}}\right]$
其中，导数是在 $\boldsymbol\theta$ 的真值上计算的，数学期望是对 $p(\mathbf x;\boldsymbol\theta)$ 求出的。

MVUE——对于某个 $p$ 维函数 $\boldsymbol g$ 和 $p\times p$ 矩阵 $\boldsymbol I$ ，当且仅当
$\frac{\partial \ln p(\mathbf{x} ; \boldsymbol{\theta})}{\partial \boldsymbol{\theta}}=\mathbf{I}(\boldsymbol{\theta})(\mathbf{g}(\mathbf{x})-\boldsymbol{\theta})$
可求到达下界的 $\mathbf{C}_{\hat{\theta}}=\mathrm{I}^{-1}(\boldsymbol{\theta})$ 的无偏估计 $\hat{\boldsymbol{\theta}}=\mathbf{g}(\mathbf{x})$ 。

3.8 矢量参数的变换

计算 $\boldsymbol \alpha=\mathbf g(\boldsymbol \theta)$ ， $\mathbf g$ 是r-维函数
$\mathbf{C}_{\hat{\alpha}}-\frac{\partial \mathbf{g}(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}} \mathbf{I}^{-1}(\boldsymbol{\theta}) \frac{\partial \mathbf{g}(\boldsymbol{\theta})^{T}}{\partial \boldsymbol{\theta}} \geq \mathbf{0}\tag{3.30}$
其中：
1. $\geq \boldsymbol 0$ 表示半正定
2. $\partial \mathrm{g}(\boldsymbol\theta) / \partial \boldsymbol \theta$ 是 $r\times p$ 雅各比矩阵
$\frac{\partial \mathbf{g}(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}}=\left[\begin{array}{cccc} \frac{\partial g_{1}(\boldsymbol{\theta})}{\partial \theta_{1}} & \frac{\partial g_{1}(\boldsymbol{\theta})}{\partial \theta_{2}} & \ldots & \frac{\partial g_{1}(\boldsymbol{\theta})}{\partial \theta_{p}} \\ \frac{\partial g_{2}(\boldsymbol{\theta})}{\partial \theta_{1}} & \frac{\partial g_{2}(\boldsymbol{\theta})}{\partial \theta_{2}} & \cdots & \frac{\partial g_{2}(\boldsymbol{\theta})}{\partial \theta_{p}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial g_{r}(\boldsymbol{\theta})}{\partial \theta_{1}} & \frac{\partial g_{r}(\boldsymbol{\theta})}{\partial \theta_{2}} & \cdots & \frac{\partial g_{r}(\boldsymbol{\theta})}{\partial \theta_{p}} \end{array}\right]$

3.9 一般高斯情况的CRLB

多维高斯分布
数据
$\mathbf{x} \sim \mathcal{N}(\boldsymbol{\mu}(\boldsymbol{\theta}), \mathbf{C}(\boldsymbol{\theta}))$
均值和协方差都依赖参数 $\boldsymbol \theta$ 。

费雪信息矩阵为
$[\mathbf{I}(\boldsymbol{\theta})]_{i j} =\left[\frac{\partial \boldsymbol{\mu}(\boldsymbol{\theta})}{\partial \theta_{i}}\right]^{T} \mathbf{C}^{-1}(\boldsymbol{\theta})\left[\frac{\partial \boldsymbol{\mu}(\boldsymbol{\theta})}{\partial \theta_{j}}\right] +\frac{1}{2} \operatorname{tr}\left[\mathbf{C}^{-1}(\boldsymbol{\theta}) \frac{\partial \mathbf{C}(\boldsymbol{\theta})}{\partial \theta_{i}} \mathbf{C}^{-1}(\boldsymbol{\theta}) \frac{\partial \mathbf{C}(\boldsymbol{\theta})}{\partial \theta_{j}}\right]\tag{3.31}$
其中
$\frac{\partial \boldsymbol{\mu}(\boldsymbol{\theta})}{\partial \theta_{i}}=\left[\begin{array}{c} \frac{\partial[\boldsymbol{\mu}(\boldsymbol{\theta})]_{1}}{\partial \theta_{i}} \\ \frac{\partial[\boldsymbol{\mu}(\boldsymbol{\theta})]_{2}}{\partial \theta_{i}} \\ \vdots \\ \frac{\partial[\boldsymbol{\mu}(\boldsymbol{\theta})]_{N}}{\partial \theta_{i}} \end{array}\right] \qquad \frac{\partial \mathbf{C}(\boldsymbol{\theta})}{\partial {\theta_i}}=\left[\begin{array}{cccc} \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{11}}{\partial \theta_{i}} & \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{12}}{\partial \theta_{i}} & \ldots & \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{1N}}{\partial \theta_{i}} \\ \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{21}}{\partial \theta_{i}} & \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{22}}{\partial \theta_{i}} & \cdots & \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{2N}}{\partial \theta_{i}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{N1}}{\partial \theta_{i}} & \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{N2}}{\partial \theta_{i}} & \cdots & \frac{\partial[\mathbf C(\boldsymbol{\theta})]_{NN}}{\partial \theta_{i}} \end{array}\right]$
对于参数 $\theta$ 是标量情况
$\mathbf{x} \sim \mathcal{N}(\boldsymbol{\mu}(\theta), \mathbf{C}(\theta))$
费雪信息则为
$[\mathbf{I}(\theta)]_{i j} =\left[\frac{\partial \boldsymbol{\mu}(\theta)}{\partial \theta}\right]^{T} \mathbf{C}^{-1}(\theta)\left[\frac{\partial \boldsymbol{\mu}(\theta)}{\partial \theta}\right] +\frac{1}{2} \operatorname{tr}\left[\left(\mathbf{C}^{-1}(\theta) \frac{\partial \mathbf{C}(\theta)}{\partial \theta}\right)^2 \right]\tag{3.32}$