强化学习(Reinforcement Learning, RL)

强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习。描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 。

强化学习的常见模型是标准的马尔科夫链,马尔科夫决策过程(Markov Decision Process, MDP),他是在假设下一个状态由上一个确定的状态来决定(条件概率),每一步都是上一步状态到当前状态的转移。  一阶马尔科夫,还有多阶。。VAE就有这种思想

 

转移概率,由某种状态转移到其他状态的概率和为1,今天下雨,通过经验值确定明天晴天概率可能0.2,下雨0.5,阴天0.3,多种状态的互相转换组合起来叫转移概率,又叫转移矩阵

马尔科夫随机过程,各个状态的改变是根据概率随机的,晴雨天转换

马尔可夫决策过程,状态的改变是通过动作完成的,比如吃完早饭,你可以去刷微博,也可以打游戏, 动作选取的往往是根据是价值最大化,趋利避害,价值是所有执行状态总回报,贝尔曼方程Bellman,会有打折系数,一般0-1,越往后的事情价值确定性越不确定,打折越高。  

总回报并不是总价值,走不通的路线总回报是不稳定的,但是价值实际是总回报的期望(所有路径的平均值),价值是稳定的,也是通过采样来求期望,逼近真实

 

强化学习是一种归化的问题,要等结果产生了才能知道是给每个动作怎样的奖惩。

 

Q学习:

策略学习:

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值