（从零开始）基于检测前跟踪雷达目标跟踪技术的研究：第（2）周所学知识（02）

最新推荐文章于 2020-04-26 18:12:25 发布

置顶爱学习滴好青年

最新推荐文章于 2020-04-26 18:12:25 发布

阅读量1.6k

点赞数 5

分类专栏：（从零开始）基于检测前跟踪雷达目标跟踪技术的研究文章标签：信号处理算法动态规划

本文链接：https://blog.csdn.net/qq_40287633/article/details/105162968

版权

（从零开始）基于检测前跟踪雷达目标跟踪技术的研究专栏收录该内容

9 篇文章 83 订阅

订阅专栏

若由本篇博文增加关注，就解封本篇博文的VIP权限哈，记得在下方留言哈
本篇文章将开始进行DP-TBD。首先你需要了解什么是DP即动态规划，而不是急于去找什么是DP-TBD。动态规划是一种最优化的思想，DP-TBD是在这种思想上发展起来的。
为了能够深入了解什么是动态规划，你首先必须要掌握以下三点：

Viterbi（维特比）算法
多阶段决策
HMM
这三点你必须要好好百度一下看看相关知识，这对于下面了解动态规划很重要！很重要！很重要！

有了上面的知识后，咱们来看一下一个最短路径问题

如果要求从A到G的最短路径，最简单的方法就是把从A到G的所有路径全部找出来，然后把各条路径上的权值相加找到最小值所对应的路径即可。但是当路径很复杂的时候就会出现，用上面的穷举法会特别麻烦。所以就出现了一种叫做动态规划的思想。
对于上图我需要有以下几点说明：

A,B1,B2…F1,F2,G：所处的状态，称为状态变量
A:第一阶段，B1,B2：第二阶段，后面的以此类推
只有相邻的两个阶段有路径，有间隔的阶段可没有路径的。
从当前时刻的一个状态到下一个阶段的状态（下一个阶段的哪个状态都有可能）：决策
路径上的权值：决策代价
从A到G的每一条路径的长度即权值之和：整体代价，其实我们如果在找最短路径的话，就是找这个整体代价的最小值。
如果要找最优路径，不论到达哪一阶段的哪个状态变量，剩下的肯定还是找最优路径。

接下来我要抛出很多的变量了，仔细阅读，自己在纸上跟着我的思路画一下，你会更加理解下面变量的意思：

x_k:k：是第k阶段，x_k则是第k阶段的状态变量
u_k(x_k):k阶段时的决策，称为决策变量
U_k(x_k):u_k(x_k)的集合
策略：从开始到最后阶段所做的决策的集合即：
{u₁(x₁)，u₂(x₂)，u₃(x₃),…,u_k(x_k)}
值函数：这个函数很重要，怎样找到最优路径，就是看这个值函数什么时候达到最大，它用来评价整体代价的优劣。即：
v(x₁;u₁,u₂,…u_k)
f_k(x_k)=max v(x₁;u₁,u₂,…u_k):最优值函数
w_j(x_j,u_j):决策代价，可以类比上图中的权值

假设
$v\left(x_{1} ; u_{1}, u_{2}, \cdots,u_{k}\right)=\sum_{j=1}^{k} w_{j}\left(x_{j}, u_{j}\right)$
可以认为此处的值函数是一条路径上的权值之和
此时
$\begin{aligned} f_{k}\left(x_{k}\right) &=\max _{\{u, j \in U}\left[\sum_{j=1}^{k} w_{j}\left(x_{j}, u_{j}\right)\right] \\ &=\max _{\left(u_{j}, v_{k}\right) \in U}\left[w_{k}\left(x_{k}, u_{k}\right)+\sum_{j=1}^{k-1} w_{j}\left(x_{j}, u_{j}\right)\right] \\ &=\max _{\left\{u_{k}\right\} \in U}\left[w_{k}\left(x_{k}, u_{k}\right)+f_{k-1}\left(x_{k-1}\right)\right], \quad k=2,3, \cdots, M \end{aligned}$ （1）
我们假设初始的决策代价是 $f_{1}\left(x_{1}\right)=w_{1}\left(x_{1}, u_{1}\right)$ （2）
由式（1）和式（2）可得
$f_{k}\left(x_{k}\right)=\max _{\left\{u_{k}\right\} \in U}\left[w_{k}\left(x_{k}, u_{k}\right)+f_{k-1}\left(x_{k-1}\right)\right]$
$=\max _{\left\{u_{k}\right\} \in U}\left\{w_{k}\left(x_{k}, u_{k}\right)+\max _{\left\{u_{k-1}\right\} \in U}\left[w_{k-1}\left(x_{k-1}, u_{k-1}\right)\right]+\ldots+\max _{\left\{u_{2}\right\} \in U}\left[w_{2}\left(x_{2}, u_{2}\right)\right]+f_{1}\left(x_{1}\right)\right\}$
$=\max _{\left\{u_{k}\right\} \in U}\left[h_{k}\left(x_{k}\right)\right]$
$h_{k}\left(x_{k}\right)=w_{k}\left(x_{k}, u_{k}\right)+\max _{\left\{u_{k-1}\right\} \in U}\left[h_{k-1}\left(x_{k-1}\right)\right]$
我们称h_k(x_k)为阶段值函数，这里的阶段值函数该怎样理解呢？v(x₁;u₁,u₂,…u_k)是一条完整路径上的值函数，而阶段值函数，顾名思义，它是前k阶段的值函数，这就是每一阶段都有一个值函数，当然这个值函数是根据w_k(x_k,u_k)的取值不同而随之变化的。
我们假设 $h_{1}\left(x_{1}\right)=w_{1}\left(x_{1}, u_{1}\right)$
接下来就到最重要的一步了，最优策略： $\left\{\hat{x}_{K}\right\}=\left\{\hat{x}_{K}:\left(\sum_{k=1}^{K} h_{k}\left(x_{k}\right)\right)_{\max }\right\}$
其中 $\hat{x}_{K}=\{\hat{x}(1), \hat{x}(2), \cdots, \hat{x}(K)\}$ ，这里记录了最优策略中每一阶段决策时对应的状态。

爱学习滴好青年

关注

5
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
（从零开始）基于检测前跟踪雷达目标跟踪技术的研究：第（2）周所学知识（02）

等粉丝数突破30，我将解封本系列的VIP权限哈！本篇文章将开始进行DP-TBD。首先你需要了解什么是DP即动态规划，而不是急于去找什么是DP-TBD。动态规划是一种最优化的思想，DP-TBD是在这种思想上发展起来的。为了能够深入了解什么是动态规划，你首先必须要掌握以下三点：Viterbi（维特比）算法多阶段决策HMM这三点你必须要好好百度一下看看相关知识，这对于下面了解动态规划很重要...
复制链接

扫一扫

专栏目录