CS285课程解释_00_综述

最新推荐文章于 2024-08-28 08:39:02 发布

bizzard

最新推荐文章于 2024-08-28 08:39:02 发布

阅读量397

点赞数 4

分类专栏： CS285 文章标签：算法深度学习

本文链接：https://blog.csdn.net/bizzard/article/details/112363549

版权

本文是对伯克利大学CS285深度强化学习课程的综述，旨在解释课程内容，适合有一定深度学习和强化学习基础的读者。课程涵盖了深度强化学习的挑战、与其他学习和控制问题的差异，以及为何深度强化学习变得重要。作者计划以中文详细复述课程，并补充个人理解和未深入讲解的部分。

摘要由CSDN通过智能技术生成

本文是一个综述，主要说一下写作目的、课程的主要内容、记录一下时间进度等等。

写作目的：

机器学习和深度学习所引领的这一波人工智能的热潮好像有所降温，但是在研究领域其热度还一直在持续，特别在某些领域，例如深度强化学习，研究的热度还是处于上升趋势，因为大家其实都认识到了一个问题：复杂的控制问题很难有好的解决方式，用学习的方式去学会一种控制方式是一个不错的选择，或者说在没有太多的选择的情况下，起码它是一个选择。

世界上的大部分问题可能都可以泛泛的称为一个决策问题，例如人每天都在做很多的决策，吃什么？去哪里？怎么去？等等；机构、部门、公司、国家都在做出决策。很多决策问题可以等同于控制问题，因为它们都是在解决一个输入和输出的问题，也就是给定一个输入去找到它最合理的输出。所以后面的叙述中我们并不严格的区分控制和决策，基本就是认为它们是同义词。

强化学习解决的问题是在一个时间序列上的决策问题。就是说，在一段时间上需要做出多次决策，以便最终能达到一个好的结果。这样的例子非常多，例如：下棋、打游戏、控制机器人完成任务、库存的动态管理、智能交易，甚至是战争、职业规划、人生等等。强化学习为解决这种问题提供了一个框架，其实就是定义一些概念、规则和算法。

虽然强化学习提供了一个框架，但是很多问题是复杂的，如何具体解决依然面临着很大的困难。例如下棋、游戏和机器人控制等