《Reinforcement Learning》 读书笔记 3:有限马尔科夫决策过程(Finite MDP)

本文是《Reinforcement Learning: An Introduction》读书笔记,重点介绍了有限马尔科夫决策过程(Finite MDP)。内容涵盖了MDP的几个要素,如状态、动作、奖励集合;马尔科夫性质;目标与奖励假设;策略与价值函数的概念,以及最优策略和最优价值函数的讨论。
摘要由CSDN通过智能技术生成
《Reinforcement Learning: An Introduction》 读书笔记 - 目录

Agent-Environment Interface

  • agent
    • learner and decision maker
  • environment
    • 与agent交互,包括所有agent之外的东西
  • environment’s state
    • StS S t ∈ S
  • action
    • AtA(s) A t ∈ A ( s )
  • reward
    • RtRR R t ∈ R ⊂ R

MDP

MDP

几个要素

  • state, action, reward集合 S,A,R S , A , R
    • Finite MDP中,这几个集合都是有限集
  • p(s,r|s,a)=P(St=s,Rt=r|St1=s,At1=a) p ( s ′ , r | s , a ) = P ( S t = s ′ , R t = r | S t − 1 = s , A t − 1 = a )
    • Markov性质,简化问题
      • 只考虑最近的一次action
      • St1 S t − 1 中其实仍然可以包含 St2 S t − 2 及以前的信息
    • 在此基础上,还可以得到几个相关的,如:
      • 状态转移概率 p(s|s,a) p ( s | s , a )
      • 期望收益 r(s,a),r(s,a,s) r ( s , a ) , r ( s , a , s ′ )
  • 例子
    • recycling robot
      recycling robot

目标

  • agent的目标是最大化 E(f(Rt)) E ( ∑ f ( R t ) )
  • reward hypothesis:
    That all of what we mean by goals and purposes can be well thought of as the maximization of the expected value of the cumulative sum of a received scalar signal (called reward).

一些概念

  • episode
    • episodic task
      • 有终止的 或者说 一段一段的
    • continuing task
      • 无限的 或者 不确定能否结束的(?)
  • discounted return
    • Gt=Rt+1+γRt+2+γ2Rt+
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值