2017CS231n笔记_S14深度增强学习

目录

S14.1增强学习(Reinforcement Learning,RL)

S14.2马尔科夫决策过程Markov Decision Processes


S14.1增强学习(Reinforcement Learning,RL)

增强学习(强化学习)架构如下图所示。在建立增强学习过程中,有一个代理Agent和一个环境增强Environment。环境赋予代理一个状态State,代理将采取行动Action,然后环境将回馈一个奖励Reward,然后给出下一个状态。这一过程将会继续循环下去,直到环境给出一个终止状态,结束学习过程。增强学习应用有车载立柱问题Cart-Pole Problem,机器人运动Robot Locomotion,Atari Games,Go等等。

 


S14.2马尔科夫决策过程Markov Decision Processes

如何在数学上公式化强化学习问题呢?MDP是对增强学习问题的数学表达。MDP满足Markov性质,即当前状态完全刻画了世界的状态。MDP由一组对象定义,如下所示。其中P表示下一个状态的转移概率分布,即给定一个状态行为组,代理将采取的动作。\gamma是折扣因子,它是用来对近期奖励以及远期奖励分配权重的。

MDP的工作方式如下:

基于MDP工作方式,定义一个策略\pi\pi是一个从状态到行为的函数,它指定了在每个状态下要采取的行动,可以是确定性的,也可以是随机的。那么MDP的目标就是,要找到最佳决策\pi^{*},能够最大化奖励之和,即最大化如下公式:

\sum_{t>0}^{ }\gamma^{t}r_{t}

最佳策略所提供的信息是在任意的给定状态下,应该采取什么行动来最大化将得到的奖励总和。在增强学习中,初始状态和转移概率分布p都是随机的,而p会给出下一个状态的分布。那么如何处理这种随机性?最大化预期的奖励总和。那么最优决策公式:

\pi ^{*}=arg \; \underset{\pi}{max}E[\sum_{t>0}^{ }\gamma^{t}r_{t}|\pi] \: with \: s_{0}\sim p(s_{0}),a_{t}\sim \pi(\cdot |s_{t}),s_{t+1}\sim \pi(\cdot |s_{t},a_{t})

轨迹:例如s_{0},a_{0},r_{0},s_{1},a_{1},r_{1},...

值函数Value function:表明当前状态有多好。

Q值函数Q-value functon:表明在状态s时,采取行动a有多好。如何求解这个最优策略。


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值