机器人pomdp导航matlab仿真,POMDPs 算法复杂度对比分析研究.pdf

您所在位置:网站首页 > 海量文档

&nbsp>&nbsp高等教育&nbsp>&nbsp研究生课件

a476e75ce57e4882405abe7b4456fc6b.gif

POMDPs 算法复杂度对比分析研究.pdf8页

本文档一共被下载:2377011b61454b208b34ad77b4c31088.gif次,您可全文免费在线阅读后下载本文档。

072ad097814a33d1ad18e33ca14a5a9e.png

9ec2792a743ebdf4575ee09a03c275ea.png

7af312d1be2cfc1e59f15880bb7a7e7a.png

5f207613e329ca76dc87c76d3ff77e64.png

adf7aa3071c520b8a2063089f549261c.png

下载提示

1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

2.该文档所得收入(下载+内容+预览三)归上传者、原创者。

3.登录后可充值,立即自动返金币,充值渠道很便利

2013 年第 1 期

深圳职业技术学院学报

No.1, 2013

*

POMDPs 算法复杂度对比分析研究

仵 博,郑红燕,冯延蓬

(深圳职业技术学院 教育技术与信息中心,广东 深圳 518055)

摘 要:部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Processes ,POMDPs)是动态

不确定环境下序贯决策的理想模型,但是现有算法都陷入 “维数灾”和 “历史灾”问题,造成理想的 POMDPs

模型无法在实际工程中得到应用.本文首先详细分析了POMDPs 精确算法的复杂度,阐述问题求解的难点;然

后比较分析现有基于点的离线算法和在线算法两类算法的算法思想和时间复杂度,指出两类算法的优缺点;最

后简介 POMDPs 实际应用情况和未来的研究方向.

关键词:部分可观察马尔可夫决策过程;序贯决策;信念状态空间;在线算法;维数灾

中图分类号:TP18 文献标志码:A 文章编号:1672-0318 (2013)0 1-0003-08

在人工智能领域,规划和决策是许多问题的 POMDPs 看成智能体与环境之间的博弈,在每一个

核心.在连续的时间片上,对于规定的问题,智 信念状态结点,智能体必须选择一个动作,然后环

能体通过选择合适的动作序列来完成既定目标, 境随机选择下一时刻的观察,在给定的深度内,通

这种决策称之为序贯决策,这个过程称之为序贯 过查找获得最佳动作.树查找算法可分为蒙特卡罗

决策过程.在序贯决策过程中,智能体必须在贪 采样算法、分支界限裁剪算法和启发式搜索算法.离

[1]

婪获取短期目标与长期规划之间做出平衡 .部 线求解算法主要分值函数近似算法、策略近似算法、

分 可 观 察 马 尔 可 夫 决 策 过 程 [2] (Partially 基于网格近似算法和分层近似算法等.值函数近似

Observable Markov Decision Processes,POMDPs) 算法分为完全观察 MDP 近似算法和基于点的近似

[6]

是智能体在动态不确定环境下进行序贯决策的一 算法 .由于基于点的近似算法符合人类认识世界

种理想数学模型.因此,动态不确定环境下的智 的规律,因此,最近几年得到众多学者的重视.基

能体序贯决策问题可以看成 POMDPs 的求解问 于点的算法主要思想是在给定的信念状态点上更新

题.由于POMDPs 能够更加客观地、准确地描述 整个a-vector ,可分为分批处理更新和异步更新.

真实世界,使它成为研究随机决策过程的重要分 但是,现有算法都陷入 “维数灾”和 “历史灾”

支,最近成为计算机、控制和管理等学科研究的 问题,造成理想的POMDPs 模型无法在实际工程中

[3]

热点 . 得到应用.本文首先详细分析 POMDPs 精确算法的

综述现有

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。

用户名:

验证码:

c9f2bced460b0329ba0aadbbc3f0fc71.png

匿名?

发表评论

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值