增强学习

Swair_Fang

于 2013-04-11 15:10:26 发布

阅读量831

点赞数 1

分类专栏：最优化理论与机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/swairf/article/details/8788375

版权

最优化理论与机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

增强学习要解决的是这样的问题：一个能够感知环境的自治agent，怎样通过学习选择能达到其目标的最优动作。

考虑一个机器人（agent）通过传感器观察周围环境状态（state）并作出一组动作（action）改变这些状态。学习的任务是获得一个控制策略（policy），以选择能达到目的的行为。

假定agent的目标可被定义一个回报（reward）函数，它对agent从不同的state中选取不同的action赋予一个数字值，即立即支付（immediate payoff）。于是policy是能够从任何初始state选择恰当的action，使agent随时间累积获得的reward达到最大。

一个agent需要通过学习和action来改变state，其中使用了的一个累积reward函数来定义任意action序列的质量。

待学习的目标函数是控制策略π：S->A，它给定当前状态S集合中的s时，从集合A中输出一个合适的动作a。

增强学习问题与其他的函数逼近问题几个不同：

。延迟回报（delayed reward） agent的任务是学习一个目标函数π，它把当前状态s映射到最优动作a=π(s)，而在增强学习中不能提供训练样例偶序<s, π(s)>，只提供一个序列立即回报值<s, r(s)>。

。探索（exploration）在增强学习中，agent通过其选择的动作序列影响训练样例的分布。

。部分可观察状态（partially observable states）实际情况下，agent所获得的当前状态信息是不完整的。

。终身学习（life-long learning）不像分离的函数逼近任务，机器人学习问题经常要求此机器人在相同的环境下使用相同的传感器学习多个相关任务。这使得有可能使用先验知识在学习新任务中减少样本复杂度。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。