2018UCBerkeley深度强化学习Lec1

课程内容

  • 深度学习(Deep Learning)的简介
  • 强化学习(Reinforcement Learning)的简介
  • 深度强化学习

深度学习

适用环境:

无结构环境(unstructured environment)

优点:

采用端到端(end to end)的学习方式

  • 无需人为定义特征
  • 自适应性(优化正确的特征),可以找到解决特定问题的正确特征

强化学习

对智能体与环境之间的交互进行建模 ,基础的强化学习是使得奖励最大化。

理论与现实的距离

对于简单的游戏,观察(或状态)、行为可以是离散并且有限个数据表示,而且由于游戏有胜负、有分数,奖励函数相对比较容易获得。
而对于现实生活中的连续决策(sequential decision making)问题,奖励函数不是唯一需要考虑的。还需要考虑,如何从实际的样例中得到奖励函数(eg:逆强化学习inverse RL);学习预测并依据预测结果选择行为;域间知识转移(eg:迁移学习transfer learning,元学习 meta-learning)。

强化学习与大脑间的共鸣

如下图所示,蓝色部分为大脑中的基底神经节(basal ganglia)。目前所知其主要功能为自主运动的控制。它同时还参与记忆,情感和奖励学习等高级认知功能。
大脑中的基底神经节

深度强化学习

在这里插入图片描述

总结

深度学习帮助强化学习从端到端地解决复杂问题!

未来的展望

是否可以有一种算法可以适用于每一个模块(这里每一个模块指的是单一的感知器,eg:视觉、听觉等等)的学习。
【实验】
将小雪貂的视神经与视觉皮层断开连接,然后重新连接至处理听觉的大脑皮层上面。在雪貂长大后,研究人员发现:雪貂可以处理视神经传递的信号。这意味着:在视觉皮层处理信息的机制在听觉皮层同样存在。
可以弱弱地说明大脑的不同部分有着相同的机制。

相关论文

有关强化学习玩游戏的论文:

有关预测的论文:
在这里插入图片描述

课程资源

课程官网:http://rail.eecs.berkeley.edu/deeprlcourse/
观看全部中英双语课程:https://ai.yanxishe.com/page/groupDetail/30?from=bilibili
伯克利大学 CS 294-112 《深度强化学习》为官方开源最新版本,由伯克利大学该门课程授课讲师 Sergey Levine 授权 AI 研习社翻译。添加字幕君微信:leiphonefansub 拉你入学习小组。更多经典课程在 ai.yanxishe.com
感谢字幕组的翻译!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值