CS294-112:Introduction and Course overview

最新推荐文章于 2021-08-13 15:50:03 发布

无聊的人生事无聊

最新推荐文章于 2021-08-13 15:50:03 发布

阅读量288

点赞数

分类专栏：信息科学文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangpeiyi9979/article/details/100975958

版权

信息科学专栏收录该内容

159 篇文章 1 订阅

订阅专栏

文章目录

一、课程内容
二、什么是深度强化学习
三、真实世界中的决策需要解决什么问题
四、应该如何构建一个智能体
参考资料

一、课程内容

从监督学习到决策
强化学习中的无模型算法:Q-Learning，Policy Gradients, Actor Critic
高级模型学习与预测
迁移学习，多任务学习，元学习
开放性问题研究与探索

二、什么是深度强化学习

强化学习拥有一个学习者(Agent), 其处在一个环境中，其对环境状态有一个观测，据此其做出决策(行动)，决策会改变环境状态，环境会反馈给Agent奖励。强化学习即用数学建模了这一过程，使得Agent能够做出最优决策。
在这里插入图片描述

深度学习提供了一种处理非结构数据的方法，也就能够更好地从环境中提取特征。

两者结合，我们便能够实现能够更加灵活处理现实环境并进行决策的Agent。个人认为，强化学习核心是决策，而深度学习为其提供了一种特征提取的方法，使得Agent能够更加灵活地对现实做出反应。

三、真实世界中的决策需要解决什么问题

传统强化学习是希望最大化奖励，但是这不是仅仅重要的。这里仍然有一些高级的主题

学习奖励函数(逆强化学习）
在不同领域中迁移知识(迁移学习、元学习)。
学习如何预测并根据预测行动。

四、应该如何构建一个智能体

方案一：硬编码实现各个部位（如脑）的功能。困难
在这里插入图片描述
方案二: 建模Agent接受环境输入(深度学习)和根据该输入进行决策功能(强化学习)。稍简单， 方案二的思想，就是深度强化学习

Instead of trying to produce a program to simulate the adult mind, why not rather try to produce one which simulates the child’s? If this were then subjected to an appropriate course of education one would obtain the adult brain。 —图灵

参考资料

官方PDF

无聊的人生事无聊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。