强化学习入门学习记录

本文介绍了强化学习的基本概念,包括马尔科夫决策过程(MDP)、估值函数和Q-学习。通过Q-Learning算法的学习,讨论了如何在环境中通过与环境的交互学习最优策略。此外,还提到了经验回放(Experience Replay)和探索-利用(Exploration-Exploitation)策略在解决算法稳定性问题和获取全面样本中的作用。
摘要由CSDN通过智能技术生成

最近学习了RL, 感觉RL属于机器学习中比较有意思的一个领域,监督学习、无监督学习都是扔一堆静止的数据去训练你的模型,而强化学习是让模型与环境的交互中进行学习,让人感觉更像一种有智慧的生物(然而并不是)。比如需要让机器学会玩一个游戏

这里写图片描述
有两种方法:
1. 有监督学习 (专家级玩家玩无数次,记录下结果作为有标记数据)
2. 强化学习

强化学习是在与环境的交互中不断得到反馈进行学习的,就像一个真实的生命,基本流程如下图所示。

这里写图片描述

上图中的Agent可以理解为我们的模型,在它与环境交互的过程中,不断感知环境的状态,从而做出决策,采取某个action,然后再从环境中得到reward,根据reward的大小来调整自己的策略。

强化学习在经典物理学的认知范畴内,认为时间可以切分成若干有严格先后顺序的时刻,因此可以形成

(s0,a0,r0,s1,a1,r1,...,st,at,rt)

这样的状态,动作和回报系列。

强化学习还有一个重要的确定性假设,也就是说,对于某个输入状态 s0 ,无论进行多少次试验,只要都采取某个动作 a0 ,输出的结果也是一样的,就像编程中的纯函数,没有side effects。这样才能让模型学习到如何根据不同的状态做出最优的决策。

有了时间和确定性的假设,就有了MDP(Markov Decision Process) 这个概念用于描述这个世界。

马尔科夫决策过程(MDP)

MDP的假设:未来只取决于当前。如果我们站在上帝视角下看,我们知道这个世界的每个物体的状态,那么未来的变化只跟当前的状态相关,和过去没有关系。用公式表示也就是

P(st+1|st)=P(st+1|st,st1,...,s1,s0)

即下一时刻的状态取决于当前的状态与动作。这里的状态指的是完全可观察的全部环境状态。

估值函数

使用强化学习的目标是为了让模型学习成为特定场景下的master,比如玩一个游戏,根据环境的变化采取相应的动作,取得尽量高的rewards。那么评价这个模型是否优秀,就看使用它能否取得尽量高的rewards。因此我们需要去量化rewards。

R=r1+r2
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值