【十九】微分动态规划

最新推荐文章于 2024-08-04 13:19:10 发布

禛zhen

最新推荐文章于 2024-08-04 13:19:10 发布

阅读量3k

点赞数

分类专栏：斯坦福大学公开课机器学习课程文章标签：机器学习教程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/knight_wzz/article/details/53048374

版权

本文介绍了微分动态规划（DDP），通过线性化非线性函数并应用LQR算法来优化轨迹。接着，详细阐述了卡尔曼滤波的工作原理，它是隐马尔可夫模型的特例，用于处理观测状态的不确定性。最后，结合DDP和卡尔曼滤波，解释了线性二次高斯（LQD）解法，用于状态估计和策略计算。

摘要由CSDN通过智能技术生成

微分动态规划 Differential Dynamic Programming DDP

注意上一讲中推导出的公式，我们发现如果只需更新Φ，则不必维护ψ的更新，即在一定程度上ψ是不需要的，所以我们在下面的讨论中不考虑ψ的影响。

使用上一讲中将非线性函数线性化的方法，并将s(t+1)表示为f(st, at)，则DDP的算法表示如下：

（1）选定标称轨迹s0_, a0_, s1_, a1_, ... sT_, aT_

（2）将在标称轨迹附近的点线性化，如

s(t+1) = f(st_, at_)+(▽s f(st_, at_))^T*(st-st_)+(▽a f(st_, at_))^T*(at-at_) = Atst + Btat

我们希望有(st, at) ≈ (st_, at_)

（3）通过LQR算法获得πt

（4）使用模拟器获得新的标称轨迹，即：s0_=initial state，at_ = π(st_)，st+1_ = f(st_, at_)

卡尔曼滤波 Kalman Filter

下面我们介绍卡尔曼滤波算法，这一算法属于隐马尔可夫模型HMM的一个特例，其假设我们观测到的状态并不是真正的状态，而是经过了一定的映射的，映射的结果可能会降低维数，并带来误差，其方程为yt=Cst+vt，其中vt服从均值为0、方差为Σ的高斯分布，yt即我们观察到的结果

卡尔曼滤波的思路为 P(st | y1, ..., yt) -> predict -> P(st

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。