一、定义
1.一个智能体怎么在不确定的环境下最大化奖励
2.强化学习的组成:Agent and Environment
3.要素:
(1)State:状态,对环境的描述
(2)Action:动作,对智能体行为的描述,是离散或者连续的
(3)p(s'|s,a):概率,智能体根据当前s做出一个a后,环境的s转变为s'的概率
(5)Reward: 奖励,做出一个a后,环境反馈的奖励
二、强化学习和监督学习的区别
1、强化学习无法获得即时的结果
2、强化学习是一个通过探索(要与应用进行权衡),然后获得奖励的过程
3、强化学习无监督,只有一个延迟的奖励
三、架构
actor 和 agent 都是行为发生体,可以考虑成一个网络
四、决策轨迹Trajectory
所以不但和当前有关还和有关
注意:环境给的概率无
有的是需要学习的
五、Reward
注意:在 这个公式中,每一步给予的反馈是随机的。
所以 E_τ~p_θ(τ)[R(τ)]是一个期望回报
六、梯度策略的公式推导
手写板推导过程如下:
作者初学,若有什么错误,欢迎私聊指正。