CS294-112:Introduction and Course overview

一、课程内容

  • 从监督学习到决策
  • 强化学习中的无模型算法:Q-LearningPolicy Gradients, Actor Critic
  • 高级模型学习与预测
  • 迁移学习,多任务学习,元学习
  • 开放性问题研究与探索

二、什么是深度强化学习

强化学习拥有一个学习者(Agent), 其处在一个环境中,其对环境状态有一个观测,据此其做出决策(行动),决策会改变环境状态,环境会反馈给Agent奖励。强化学习即用数学建模了这一过程,使得Agent能够做出最优决策。
在这里插入图片描述

深度学习提供了一种处理非结构数据的方法,也就能够更好地从环境中提取特征。

两者结合,我们便能够实现能够更加灵活处理现实环境并进行决策的Agent。个人认为,强化学习核心是决策,而深度学习为其提供了一种特征提取的方法,使得Agent能够更加灵活地对现实做出反应。

三、真实世界中的决策需要解决什么问题

传统强化学习是希望最大化奖励,但是这不是仅仅重要的。这里仍然有一些高级的主题

  • 学习奖励函数(逆强化学习)
  • 在不同领域中迁移知识(迁移学习、元学习)。
  • 学习如何预测并根据预测行动。

四、应该如何构建一个智能体

方案一:硬编码实现各个部位(如脑)的功能。困难
在这里插入图片描述
方案二: 建模Agent接受环境输入(深度学习)和根据该输入进行决策功能(强化学习)。稍简单方案二的思想,就是深度强化学习

Instead of trying to produce a program to simulate the adult mind, why not rather try to produce one which simulates the child’s? If this were then subjected to an appropriate course of education one would obtain the adult brain。 —图灵
在这里插入图片描述

参考资料

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值