强化学习——基本概念

什么是强化学习

  • 强化学习关注与智能体(agent)如何与环境交互中不断学习以完成特定的目标。
  • 与有监督学习相比, 不需要告诉智能体数据以及对应的标签,学习相应的模型。
    而是需要智能体在环境中一次次学习(哪些数据对应哪些标签),从而学习规律知道策略。
  • 强化学习是希望智能体在环境中根据当前状态,采取行动,转移到下一个状态,获得回报。不断进行这样的过程,从而学习到一个策略(状态到动作的映射,即当前状态下,采取什么样的行动,能使得我最终获得的回报最大【不仅只是当前状态的而回报,一个策略π的长期影响才是至关重要的】)

强化学习中的基本概念

两个交互对象:

  • 智能体(agent):可以感知外界环境的状态(State)和反馈的奖励(Reward),并进行学习和决策.智能体的决策功能是指根据外界环境的状态来做出不同的动作(Action),而学习功能是指根据外界环境的奖励来调整策略.
  • 环境:是智能体外部的所有事物,并受智能体动作的影响而改变其状态,并反馈给智能体相应的奖励。

基本要素:

  • 状态(state):对环境的描述,可以是离散的或连续的。状态空间 S S S
  • 动作(action):是对智能体行为的描述,可以是离散的或连续的,动作空间 A A A
  • 策略 π ( a ∣ s ) \pi(a|s) π(as):智能体根据当前状态s,决定下一步做出的动作a。
    • 确定性策略: π \pi π是一个函数映射, S → A S→A SA
    • 随机性策略: π \pi π是一个概率分布, ∑ a ∈ A π ( a ∣ s ) = 1 \sum_{a\in A}\pi(a|s)=1 aAπ(as)=1
  • 状态转移概率 p ( s ′ ∣ a , s ) p(s'|a,s) p(sa,s):智能体根据当前状态𝑠 做出一个动作𝑎 之后,环境在下一个时刻转变为状态𝑠′ 的概率。
  • 即时奖励 r ( s ′ , s , a ) r(s',s,a) r(s,s,a):是一个标量函数,即智能体根据当前状态𝑠 做出动作𝑎 之后,环境会反馈给智能体一个奖励,这个奖励也经常和下一个时刻的状态𝑠′ 有关.

什么是马尔可夫决策过程

  • 如果状态和动作都是离散的时候,可以把智能体与环境的交互看成一个离散的序列。
    s 0 , a 0 , s 1 , r 1 , a 1 , s 2 . . . . . . s t , r t , a t . . . s_0,a_0,s_1,r_1,a_1,s_2......s_t,r_t,a_t... s0,a0,s1,r1,a1,s2......st,rt,at...
    如下图所示:
    在这里插入图片描述

  • 此时,将智能体与环境的交互看成一个马尔可夫决策过程
    p ( s t + 1 ∣ s t , a t , s t − 1 , . . . . . s 0 , a 0 ) = p ( s t + 1 ∣ s t , a t ) p(s_{t+1}|s_t,a_t,s_{t-1},.....s_0,a_0)=p(s_{t+1}|s_t,a_t) p(st+1st,at,st1,.....s0,a0)=p(st+1st,at)
    其决策过程如下图所示:
    在这里插入图片描述

  • 马尔可夫决策过程的轨迹:
    在这里插入图片描述

以上图片来源:《神经网络与深度学习》

强化学习中Model-based与Model-free的区别

用<S,A,P,R>的马尔可夫决策过程定义强化学习任务

  • Model-based:如果四元组的元素都已知,而且状态集合、动作集合在有限步数内是有限集,则机器可以对真实的环境建模,构建一个虚拟世界来模拟真实环境的状态和交互反应。
    换句话说,如果及其中能够到状态转移函数和奖励函数,就可以直接在虚拟的环境中学习和规划策略即可。
  • Model-free:但实际中,很难知道马尔可夫决策过程的所有元素,对于状态转移和奖励函数都不好估计,甚至环境都是未知的,所以就要采用model free的方法,智能体只能在真实环境中通过一定策略来执行动作,等待奖励和状态转移,然后根据反馈的信息来更新行为策略,从而反复迭代学习到最优策略。

区别

  • model free:
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值