一、强化学习概述

强化学习是什么?

强化学习是面向智能体的学习,智能体通过与环境进行交互来达到预定目标。

强化学习通过试错和优化来进行学习,智能体通过试错后的奖励或者惩罚来学习。

强化学习和机器学习的关系:

机器学习分为三类:监督学习、非监督学习、强化学习。

       监督学习:有即时标签的学习。

      非监督学习:无标签学习。

      强化学习:有延迟奖励的学习。

【例】:给出一批人脸图片,要求做分类

       监督学习:给定人脸的标签(人名),通过数据学习得出人脸属于哪个数据。

       非监督学习:不需要标签,通过学习,判断出哪些图像属于同一个人。

       强化学习:没有标签,只有奖励信号,奖励包括:

                         即时奖励:如果分错了,告诉你错了。

                         延迟奖励:全部分类完毕,告诉你本次分类的得分。

强化学习的直观特性:

     1)没有监督信号,只有奖励信号(具体变抽象)

     2)奖励信号大都是延迟的,不是即时的。

     3)强化学习是优化问题。

     4)强化学习的数据具有时间上的相关性,不满足数据独立同分布假设。

强化学习的组成:

 实:    

      智能体(agent):是强化学习中需要优化的部分,是可以精确控制的部分。

      环境(Env):  环境是我们不能直接控制的部分,可以通过智能体来改变环境。

      动作(Action):动作是智能体与环境交互的媒介,动作的设定要能够改变未来所获的奖励,动作必须对环境起到一定的控                    制作用。   

 虚:

      奖励(Reward):奖励是一个标量,来衡量智能体在时间t上所做的动作的好坏。智能体或者说强化学习的目标就是最大化累                 计奖励。

      回报(Return):回报就是累计奖励,智能体在时刻t做出动作a时,会在未来收到奖励序列:Rt,Rt+1,Rt+2...。我们的目的是                  要最大化累计奖励,通用的办法就是将奖励加权求和,定义为回报。

                                       G_{t} =w _{t}*{R_{t}}+w _{t+1}*{R_{t+1}}+w _{t+2}*{R_{t+2}}+...

                强化学习的目标就是最大化回报值。

                衰减系数:回报的权重处理方式。我们对于当下的奖励和未来的奖励的关注度不同,或者说当下的奖励和未来的奖励对                           回报值的影响不同,我们通过权重来处理对于不同时刻奖励的关注度,定义\gamma为衰减系数。

                                      G_{t} ={R_{t}}+\gamma *{R_{t+1}}+ \gamma ^{2}*{R_{t+2}}+\gamma ^{3}*{R_{t+3}}...          \gamma \in [0,1]   

                          \gamma越大,表明我们对未来的关注度越大,越关注长期奖励,\gamma越小,表明我们越关注短期奖励。

       策略(Policy):策略是一个从状态到动作的映射。直观上的描述就是智能体在什么状态下做什么事。强化学习的最终目的就是找到一个策略,使得回报值的期望最大化。

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值