A New Approach to Linear Filtering and Prediction Problems
线性滤波与预测问题的一种新方法
R. E. KALMAN
使用随机过程的Bode-Shannon表示和动态系统分析的“状态转移”方法重新检查经典的过滤和预测问题。新结果是:
(1)问题的解决方案和方法无需修改就可以适用于平稳和非平稳统计数据以及增长存储和无限存储过滤器。
(2)导出最优估计误差的协方差矩阵的非线性差分(或微分)方程。根据该等式的解,无需进一步计算即可获得最佳线性滤波器的差分(或微分)方程的系数。
(3)滤波问题显示为无噪声调节器问题的对偶。这里开发的新方法适用于两个众所周知的问题,确认并扩展了早期的结果。
讨论基本上是独立的,并从第一原则开始;随机过程理论的基本概念在附录中进行了回顾。
介绍
通信和控制中的一类重要的理论和实践问题具有统计性质。 这些问题是:(i)随机信号的预测; (ii)随机信号与随机噪声的分离; (iii)在存在随机噪声的情况下检测已知形式的信号(脉冲,正弦波)。
在Wiener [1]的开创性工作中,给出了问题(i)和(ii)的Wiener-Hopf积分方程; 他还给出了一个方法(谱分解),用于在平稳统计和有理谱的实际重要特例中求解该积分方程。
许多扩展和概括都遵循了Wiener的基本工作。 Zadeh和Ragazzini解决了有限存储案例[2]。 同时且独立于Bode和Shannon [3],他们还提供了一种简化的解决方案[2]。 Booton讨论了非平稳的Wiener-Hopf方程[4]。 这些结果现在在标准文本中[5-6]。 Darlington [7]最近给出了这些主线的不同方法。 对于采样信号的扩展,参见例如Franklin [8],Lees [9]。 另一种基于Wiener-Hopf方程的本征函数的方法(也适用于非平稳问题,而前面的方法一般不适用),由Davis [10]开创并由许多其他人应用,例如Shinbrot [11] ,Blum [12],Pugachev [13],Solodovnikov [14]。
所有这些论文的目标都是为了理论上规范化线性动态系统(维纳滤波器),实现随机信号的预测、分离或检测。
维纳滤波器方法有很多不足之处,这些问题严重限制了它们的实际用途:
(1)最佳滤波器由其脉冲响应指定。 从这些数据中合成滤波器并不是一项简单的任务。
(2)最佳脉冲响应的数值确定通常非常复杂,并且不适合于机器计算。 随着问题复杂性的增加,情况变得越来越严重。
(3)重要的概括(例如,增长存储过滤器,非平稳预测)需要新的推导,对于非专业人员来说经常是相当困难的。
(4)推导的数学不透明。 基本假设及其后果往往模糊不清。
本文重新审视了这个问题集,避开了上面提到的困难。 以下是本文的重点:
(5)最优估计和正交投影。 从条件分布和期望的角度来看待维纳问题。 通过这种方式,很快就可以获得维纳理论的基本事实; 结果的范围和基本假设显而易见。 可以看出,所有统计计算和结果均基于一阶和二阶平均值; 不需要其他统计数据。 因此消除了困难(4)。 这种方法在概率论中是众所周知的(参见Doob [15]的第75-78页和第148-155页以及Loève[16]的第455-464页),但尚未在工程中广泛使用。
(6)随机过程的模型。 接下来,特别是Bode和Shannon [3],表示任意随机信号(高达二阶平均统计特性)作为由独立或不相关的随机信号(“白噪声”)激发的线性动态系统的输出。 这是维纳理论[2-7]的工程应用中的标准技巧。 这里采用的方法与传统方法的不同之处仅在于描述线性动态系统的方式。 我们将强调状态和状态转型的概念; 换句话说,线性系统将由一阶差分(或微分)方程组指定。 这种观点是自然的,也是必要的,以便利用(5)中提到的简化。
(7)解决维纳问题。 使用状态转移方法,单个推导涵盖了大量的问题:增长和无限的内存过滤器,平稳和非平稳统计等; 问题(3)至此也就解决了。 在正确地猜测出被估计(即,滤波或预测)问题的“状态”之后,引出最优估计误差的协方差矩阵的非线性差(或微分)方程。 这与Wiener-Hopf方程相类似。 协方差矩阵的方程的解开始于进行第一次观察的时间; 在每个稍后的时间
,等式的解表示在给定区间(
,
)中的观测值的最佳预测误差的协方差。 一旦从
时刻得到协方差矩阵,我们立即获得表征最佳线性滤波器的系数(通常是时变的),而无需进一步计算。
(8)对偶问题。 Wiener问题的新表述使其与基于“状态”观点的不断发展的控制系统理论接触[17-24]。 令人惊讶的是,Wiener问题与无噪声最优调节器问题是对偶的两个问题,这个问题已经由一些作者先前使用状态转移方法解决了[18,23,24]。 这两个问题的数学背景是相同的 - 这一直被怀疑,但直到现在,这些类比从未被明确提出过。
(9)应用。 新方法的力量在于推动理论研究和复杂实际问题的解答。 对于解决实际问题,新方法可以更容易被计算机实现。 文章后面将给出这方面的例子。 为了提供更直观的感受,本文给出了两个非平稳预测的标准示例; 在这些情况下,甚至可以以封闭的形式获得上面(7)中提到的非线性差分方程的解。
为便于参考,主要结果以定理的形式显示。 只有定理3和4是原始的。 下一节和附录主要用于以适合本发明目的的形式审查众所周知的材料。
符号约定
在整篇论文中,我们将主要讨论离散(或采样)动态系统; 换句话说,是在等间隔时间点(采样时刻)上观察信号。 通过适当选择时间刻度,可以将连续采样时刻(采样周期)之间的恒定间隔设定为统一间隔。这些时间相关变量,比如,
,
,
总被认为是整数。对离散动态系统的限制根本不是必要的(至少从工程的角度来看);然而,通过使用离散性,我们可以保持数学的严谨性和初级性。向量将用小粗体字母表示:
,
,...,
,
,
,...向量或更确切地说,n维向量是一组n个数字
,...
;
是向量
的分量。
矩阵将以大写粗体字母表示:,
,
,
,
,...; 它们是m×n个元素阵列,
,
,
,...。矩阵的转置(交换行和列)将由素数表示。矩阵的转置(交换行和列)将用撇符号表示。在矩阵运算中,我们也可将向量视为具有单列的矩阵。
使用矩阵乘法的传统定义,我们写出两个n维向量,
的标量积:
标量积的结果显然是标量,即不是向量。
类似地,与n×n矩阵Q相关联的二次形式是:
我们定义表达式为m×n矩阵(元素为
),其中
为m维向量,
为n维向量。
我们定义为随机变量
的期望。在
之后省略括号通常很常见。通常也不会导致混淆。
=包含元素
的矩阵;
=包含元素
。
为便于参考,下面给出了使用的主要符号列表:
最佳估计
一般的时间,现在的时间;
观察开始的时间;
,
基本随机变量;
观测到的随机变量;
给定
下
的最佳估计;
损失函数(其参数的非随机函数);
估计误差(随机变量);
正交投影
由随机变量
产生的线性流形;
最佳估计
要具体描述所要研究的问题,先考虑如下情形。给定信号 和噪声
,我们只能观测到他们的和
。假设我们已经观测到下面这些时刻的值
,我们可以从这些条件下推断出关于
时刻信号(不可观察的)的值是什么样的,其中
可以是小于、等于或者大于
。如果
,则这个问题是数据平滑(插值)问题;如果
,则这个问题是一个滤波问题;如果
,在这个问题是一个预测问题。由于我们的讨论可以覆盖这几个问题,因此我们将在此后使用术语"估计"。
正如Wiener [1]所指出的,估计问题的属于概率论和统计学的范畴。因此,信号、噪声及其总和将是随机变量,因此它们可被视为随机过程。根据随机过程的概率描述,我们可以确定信号和噪声的特定样本将发生的概率。对于任何给定的随机变量的测量值
,然后,原则上我们也可以确定随机变量
的各种不同值
出现的概率。这就是条件概率分布函数:
(1)
显然,表示所测量得到的随机变量
的信息中携带了随机变量
信息。随机变量
的任何统计估计将是该分布函数的函数,因此也就是随机变量
的(非随机)函数。该统计估计表示为
,或者是
或者
。现在假设
作为随机变量
的固定函数给出。那么
本身就是一个随机变量,只要知道
的实际值,就知道它的实际值。通常,
的实际值将不同于
(未知)的实际值。为了得出确定
的合理值,很自然地为估计误差设定惩罚或损失函数。显然,损失函数应当是(i)正数,(ii)估计误差的
非递减函数。我们定义的损失函数需满足下面的条件:
,当
(2)
损失函数的一些常见示例,比如,,等等,其中,
是正常数。
选择随机变量的一种(但绝不是唯一的)自然方式是要求这种选择应该最小化平均损失或风险:
(3)
由于(3)右边的第一个期望不依赖于的选择而只依赖于
,很明显最小化(3)等同于最小化:
(4)
在略微的额外假设下,可以以简单的方式表征最佳估计。