强化学习 ----1

一、定义

1.一个智能体怎么在不确定的环境下最大化奖励

2.强化学习的组成:Agent and Environment

3.要素:

(1)State:状态,对环境的描述

(2)Action:动作,对智能体行为的描述,是离散或者连续的

(3)p(s'|s,a):概率,智能体根据当前s做出一个a后,环境的s转变为s'的概率

(5)Reward: 奖励,做出一个a后,环境反馈的奖励

二、强化学习和监督学习的区别

1、强化学习无法获得即时的结果

2、强化学习是一个通过探索(要与应用进行权衡),然后获得奖励的过程

3、强化学习无监督,只有一个延迟的奖励

三、架构

actor 和 agent 都是行为发生体,可以考虑成一个网络

四、决策轨迹Trajectory

所以s_{t+1}不但和当前s_{t}有关还和a_{t}有关

注意:环境给的概率无\theta

           有\theta的是需要学习的

五、Reward

注意:在R(\tau )=\sum_{t=1}^{T}r_{t} 这个公式中,每一步给予的反馈是随机的。

所以 E_τ~p_θ(τ)[R(τ)]是一个期望回报

六、梯度策略的公式推导

手写板推导过程如下:

作者初学,若有什么错误,欢迎私聊指正。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值