【牛津大学博士论文】结合统计学习的自适应鲁棒控制

该论文探讨了一个在代理不完全了解模型参数的鲁棒随机控制问题。通过在线参数估计,代理能够利用过程实现来估计未知参数,并在鲁棒控制框架内优化策略。研究重点包括连续时间设置中的参数估计和时间一致的随机控制问题,旨在解决效用最大化等实际问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

fc6121e45316b1475115457853e7db76.png

来源:专知
本文为论文介绍,建议阅读5分钟在本论文中,我们的目标是研究一个鲁棒的随机控制问题,其中代理不知道基础过程的参数值。

be340e5c3c7e570fe033f06bf351f210.png

在随机控制问题中,代理选择最优策略以最大化或最小化性能准则。性能准则可以是标准控制问题的奖励函数的期望,也可以是鲁棒控制问题的非线性期望。在参数化的随机控制问题中,代理需要知道随机系统中模型参数的值,以正确指定最优策略。然而,代理知道模型参数值的情况几乎是不存在的。

在本论文中,我们的目标是研究一个鲁棒的随机控制问题,其中代理不知道基础过程的参数值。因此,我们构建了一个随机控制问题,假设代理不知道模型参数的值。然而,代理使用可观察的过程来估计模型参数的值,同时在一个鲁棒的框架内解决随机控制问题。

这个新的随机控制问题有两个关键组成部分。第一个组件是参数估计部分,代理使用基础过程的实现来估计随机系统中的未知参数。我们特别关注在线参数估计。在线估计器是我们的随机控制问题的一个重要成分,因为这种类型的估计器允许代理以反馈形式获得最优策略。第二个组件是随机控制部分,问题是如何设计一个时间一致的随机控制问题,使代理也能同时估计参数并优化其策略。在本论文中,我们在连续时间设置中解决上述问题的每个组件,然后仔细研究在此框架下的效用最大化问题。

在本论文中,我们研究了随机控制问题,其中代理没有对模型中参数值的充分了解,并且随着时间的推移,使用新的观察来估计参数,并同时更新最优策略。这个问题从理论和实践的角度都很有趣。标准的随机控制问题通常假设代理知道模型参数的值,这是一个很强的假设,在实践中并不成立。通过放宽对参数知识的假设,我们可以将新的随机控制框架应用于许多经典的随机控制问题,比如效用最大化,其中代理没有对随机系统中模型参数值的充分了解。这些随机控制问题中有两个关键组件。首先,随着时间的推移和更多信息的可用性,估计参数的值。在本论文中,我们关注在线参数估计。在线估计器是我们研究的随机控制问题的一个重要成分,因为在线估计器允许代理获得反馈形式的策略(马尔可夫)。其次,设计一个时间一致的随机控制问题,允许代理在线估计参数,同时推导出最优策略。在本论文中,我们在连续时间设置中解决上述问题的每个组件。

a8e96ff17d2dd41ca0e40f6662046fbd.png

a864691077d572f54bf4034241b909dd.png

ef0fc41d196c5e86ee239c686ea60367.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值