万字长文:重温机器学习经典算法

本文深入探讨了强化学习的概念,强调了其试错学习和长期回报的特点,并介绍了强化学习在机器人控制、自动驾驶等领域的重要应用。同时,文章对比了强化学习与有监督学习、无监督学习的区别,以及与模仿学习的关系。文中提到了深度强化学习的热门应用,如TensorFlow和Gym框架在其中的作用。
摘要由CSDN通过智能技术生成
点击上方“机器学习算法工程师”选择“星标”公众号,重磅干货,第一时间送达

一、强化学习的概念和主要用途

1.什么是强化学习?

强化学习(Reinforcement Learning)是机器学习的一个非常重要的分支,其核心思想是实验者构建一个完整的实验环境,在该环境中通过给予被实验者一定的观测值和回报等方法来强化或鼓励被实验者的一些行动,从而以更高的可能性产生实验者所期望的结果或目标。从以上对强化学习的描述中,我们可以看出强化学习一定会涉及到被实验者(也称为智能体,Agent)、实验者构建的环境(也就是系统环境,System Environment)、被实验者的观测值(也称为环境状态,State)、被实验者的行动(Action)和回报(也称为奖励或反馈,Reward)这五个关键要素。

举一个经典的心理学实验来进一步解释强化学习所涉及到的这几个关键要素。这个实验就是巴浦洛夫的狗,在实验中每次实验者都对着狗摇铃铛,并给它一点食物。久而久之,铃铛和食物的组合就潜移默化地影响了狗的行动,此后每次对着狗摇铃铛,狗就会不由自主的流口水,并期待实验者能给它食物,通过这样的方法,实验者就让狗学会了铃铛和食物之间的关系,这算作是强化学习的一个简单的例子。

从这个例子中我们不光能看出强化学习所涉及到的以上描述的五个关键要素,并且还能得到一个包含这五个关键要素的高度抽象的强化学习的框架,那就是: 在经典的强化学习中,智能体是要和实验者构建的系统环境完成一系列的交互,主要包含以下三项内容:

1. 在每一时刻,环境都处于一种状态,智能体能得到环境当前状态的观测值; 2. 智能体根据当前环境状态的观测值,并结合自己历史的行为准则(一般称为策略,Policy)做出行动; 3. 智能体做出的这个行动又继而会使环境状态发生一定的改变,同时智能体又会获取到新的环境状态的观测值和这个行动所带来的回报,当然这个回报既可以是正向的也可以是负向的,这样智能体就会根据新的状态观测值和回报来继续做出新的行动,直至达到实验者所期望的目标为止。 因此,高度抽象的强化学习的框架所包含的整个过程如图1所示:

图片

图1 强化学习的过程表示

所以,站在智能体的角度,强化学习的目标就是最大化所获得的回报。但是这个目标有些抽象,因此我们需要把这个目标变得更容易量

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值