Reinforcement Learning 强化学习

该博客深入探讨了强化学习中的模拟和模型预测过程,通过一系列的状态转移s0到s(m)T来阐述样本状态的选择和更新策略。在每个状态s(i)中,采取不同行动a,并使用模拟或模型生成新状态s'(j),以此估计未来奖励V(s')。通过最大化动作值q(a)来确定最优行动,并利用梯度下降更新参数θ,以逼近最优价值函数V*(s(i))。
摘要由CSDN通过智能技术生成
Reinforcement Learning
  强化学习
一、Reinforcement Learning的基本概念及原理
强化学习是一种非监督式学习方法。其主要作用是通过样本数据(sanple data),训练出最优的决策方案。它可以看做是对Markov Decision Process(MDP)进行决策优化的学习算法。MDP  模型中的变量有:
S: 状态集合(states);
A: 决策集合(actions);
P sa:在状态为s时采取a决策产生的状态的概率分布,如P sa(s')表示从s采取a决策到达s'的概率;
γ∈[0,1): 折扣系数(discount factor)
R:奖励函数(reward function),认为只与当前状态有关,即R(s)
MDP示意如下:

s0 —a0→ s1  —a1→ s2  —a2→ s3  —a3→ s4  —a4→...

另外,定义以下变量:
V(s):价值函数(value function)
π:决策函数(状态和决策之间的映射关系)如a=π(s)表示
学习的目标是在当前状态下找出最优的决策方案,使得未来所有的期望奖励最大,未来的期望奖励为:
E[R(s0)+ γ * R(s1)+   γ 2 * R(s2)+...]
定义 V π (s)= E[R(s0)+ γ * R(s1)+   γ 2 * R(s2)+... | s0=s, π],则 V π 满足Bellman equations:
V π (s)= R(s)+γ s' ∈S Ps π ( s')V π ( s')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值