基本概念篇(一),强化学习基本要素

其实本来不想写这篇的,相信愿意往下看的童鞋,对强化学习本身应该有一定了解。但其实你看的多了就会发现,现有很多文章在细节方面还是有不少差异的。因此,这篇文章也是为了统一本博客的话语体系,为后面内容打基础。
首先请看下面这张图:
在这里插入图片描述
上图就是强化学习的最一般思路。其中Agent代表你实现的各种“牛叉”算法,Environment则代表Agent输出或作用的对象。其实这一思路,特别类似于我们人类或者自然界的动物等,通过与环境的交互,逐渐适应环境并学习到知识。当然,现有强化学习的算法从效率上来说,别说和人类相比,与动物相比低的也不是一星半点。这是因为现有的学习算法,大部分都是需要依靠海量的数据来投喂的。(当然,我的知识有限,如果已有更高效的学习方法,我会回来改正这段话的。)
下面,我们根据上图,正式引入强化学习的一些基本要素:

1. 环境状态 s s s

即Environment所描述对象的情况。由于强化学习本身的设计,其状态可认为是离散的,或者简单来说,就是一步一步的。我们在这里给 s s s添加一个下标 t t t,表示为 s t s_t st,表示环境每一步的状态。当然,在强化学习中, s t s_t st具体的取值,取决于你的采样方式,更取决于你设计的算法本身的需求。

2. Agent的动作 a a a

即Agent的输出,这个也是一步一步的,因此可表示为 a t a_t at。当然,这个取值也完全取决于你的需求与设计。在强化学习中, s s s a a a是成对出现的,即 s t → a t → s t + 1 → ⋯ s_t\rightarrow a_t\rightarrow s_{t+1}\rightarrow\cdots statst+1。请大家务必记住这个序列,它是强化学习概念的基础,贯穿强化学习始终。

3. 环境奖励 r r r

即Agent的动作带来的实时收益,这个收益本身也取决于环境的设计。一般情况下,这个收益每一步都有。但是,有时很难对每一步设计具体收益,所以有可能会在最后设计一个总收益,而其他步上都是0。收益的设计会极大的影响你的算法,后面我们会通过各种示例慢慢讨论。
以上三个是强化学习中最基本的要素。在具体的强化学习中,每一步都会产生一个组合: ( s t , a t , s t + 1 , r t + 1 ) \left(s_t,a_t,s_{t+1},r_{t+1}\right) (st,at,st+1

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值