CS231N-14-Reinforcement Learning

最后一节。

So far, we have mainly talked about supervised learning like image classification, segmentation by CNN and machine translation by RNN, also talked about unsupervised learning like generating image by VAE and GAN through NN, today we will talk about reinforcement learning.
We should bear in mind that deep learning is an approach to solving problems, while supervised, unsupervised, semi-supervised and reinforcement learning are problems themselves.

What is Reinforcement Learning?

这里写图片描述

我们有Agent智能体和Environment环境。环境先给agent一个状态 st ,然后agent take action at ,再然后环境give back reward rt 和次态 st+1 。这就构成了一个循环,循环是由agent和环境交互Interact形成的,直到遇到终态。我们的目标就是作出的actions能最大化reward(比如累积的,或者最终的)。

Markov Decision Process MDP

这里写图片描述
这里写图片描述

如何用数学表述呢?Markov Decision Process。马尔可夫决策过程。Markov性质是次态只和现态有关。
S是状态集,A是动作集,R是基于(S,A)pair的奖励分布(注意奖励不是确定的,是分布)。P是给定现态和动作的次态分布(毕竟次态也并非就确定了,是一个分布)。

具体markov decision process已经在课件写的很明白了。由于R和P都是概率分布,所以不确定性还是很大的。我们的objective就是找到一个policy π ,是从S到A的映射(那R呢?),使得累积折旧奖励和最大。(有个折旧率)

Value Function & Q-value Function

这里写图片描述

value function就是我们从计概黑白棋开始常说的估值函数,这里是对现态s的估值,即未来的奖励和的期望。还有q-value估值函数,是对现态s和action a的估值。

那么问题变成:如何计算value function呢?

Bellman Equation

这里写图片描述

这里写图片描述

这里写图片描述

以上摘自https://zhuanlan.zhihu.com/p/21340755

还记得50年代的Bellman吧,算分的动态规划之父。其实动态规划和增强学习都属于MDP。Bellman方程是RL的基石,因为通过上述式子的推导,将估值的计算转化为: rt+1 次态的奖励,加上 λv(St+1) 次态的估值,这种迭代嵌套的方式。逻辑意义上是显然的,现态的估值等于次态得到的奖励加上次态的估值的期望。

Q-learning

这是RL两大算法之一。基于估值函数。

这里写图片描述

Policy Gradient

这是RL两大算法之二。

由于打算实践些图像处理的项目,RL部分就先搁置了。以后找时间再学习,虽然人工智能范围很广,RL很难,人专精一个领域已经不易,但一个researcher需要每个主领域都懂些,至少在和别人交流时/在面试时不是一脸懵逼。

最后摘自贾扬清大神的一段话,作为本课程的结语:

举个例子,伯克利人工智能方向的博士生,入学一年以后资格考试要考这几个内容:
- 强化学习和Robotics
- 统计和概率图模型
- 计算机视觉和图像处理
- 语音和自然语言处理
- 核方法及其理论
- 人工智能:一种现代方法中的其他方面(包括搜索,CSP,逻辑,planning,等等)

一个小时,两个教授随便出题,要求口试解答通过。挂两次的话,嘿嘿。(虽然真挂两次的不多)
如果真的想做人工智能,建议都了解一下,不是说都要搞懂搞透,但是至少要达到开会的时候和人在poster前面谈笑风生不出错的程度吧。
作者:贾扬清
链接:https://www.zhihu.com/question/40554481/answer/92284829
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在模型无关的分层强化学习中,学习表示是一项重要的任务。学习表示是指通过提取有用的信息和特征来将观察数据转化为表示向量。这些表示向量可以用于解决强化学习问题中的决策和行动选择。 模型无关的分层强化学习是指不依赖于环境模型的强化学习方法。它通常由两个部分组成:低层控制策略和高层任务规划器。低层控制策略负责实际的行动选择和执行,而高层任务规划器则负责指导低层控制策略的决策过程。 学习表示在模型无关的分层强化学习中起到至关重要的作用。通过学习适当的表示,可以提高对观察数据的理解能力,使得模型能够捕捉到环境中的重要特征和结构。这些表示可以显著减少观察数据的维度,并提供更高层次的抽象,从而简化了决策和规划的过程。 学习表示的方法多种多样,包括基于深度学习的方法和基于特征选择的方法。基于深度学习的方法,如卷积神经网络和循环神经网络,可以通过学习多层次的特征表示来提取环境观察数据的有用信息。而基于特征选择的方法则通过选择最有信息量的特征来减少表示的维度,从而简化了模型的复杂度。 总之,学习表示在模型无关的分层强化学习中起到了至关重要的作用。通过学习适当的表示,模型可以更好地理解观察数据并进行决策和规划。不同的方法可以用来实现学习表示,包括基于深度学习的方法和基于特征选择的方法。这些方法的选择取决于具体任务和问题的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值