CS285课程解释_00_综述

本文是对伯克利大学CS285深度强化学习课程的综述,旨在解释课程内容,适合有一定深度学习和强化学习基础的读者。课程涵盖了深度强化学习的挑战、与其他学习和控制问题的差异,以及为何深度强化学习变得重要。作者计划以中文详细复述课程,并补充个人理解和未深入讲解的部分。
摘要由CSDN通过智能技术生成

  本文是一个综述,主要说一下写作目的、课程的主要内容、记录一下时间进度等等。

写作目的:

       机器学习和深度学习所引领的这一波人工智能的热潮好像有所降温,但是在研究领域其热度还一直在持续,特别在某些领域,例如深度强化学习,研究的热度还是处于上升趋势,因为大家其实都认识到了一个问题:复杂的控制问题很难有好的解决方式,用学习的方式去学会一种控制方式是一个不错的选择,或者说在没有太多的选择的情况下,起码它是一个选择。

       世界上的大部分问题可能都可以泛泛的称为一个决策问题,例如人每天都在做很多的决策,吃什么?去哪里?怎么去?等等;机构、部门、公司、国家都在做出决策。很多决策问题可以等同于控制问题,因为它们都是在解决一个输入和输出的问题,也就是给定一个输入去找到它最合理的输出。所以后面的叙述中我们并不严格的区分控制和决策,基本就是认为它们是同义词。

       强化学习解决的问题是在一个时间序列上的决策问题。就是说,在一段时间上需要做出多次决策,以便最终能达到一个好的结果。这样的例子非常多,例如:下棋、打游戏、控制机器人完成任务、库存的动态管理、智能交易,甚至是战争、职业规划、人生等等。强化学习为解决这种问题提供了一个框架,其实就是定义一些概念、规则和算法。

       虽然强化学习提供了一个框架,但是很多问题是复杂的,如何具体解决依然面临着很大的困难。例如下棋、游戏和机器人控制等

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

bizzard

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值