机器学习---强化学习


机器学习根据数据的标签可分为有监督学习、无监督学习和强化学习三种,其中有监督学习已知类标签,无监督学习不知道类标签,强化学习不知道类标签但是可通过学习或反馈来获得类标签,因此也可将强化学习看成是“延迟标记信息”的类标签。

强化学习定义

强化学习是机器学习的一个领域,其强调如何基于环境而行动,以取得最大化的预期利益。强化学习简单来说就是一个智能体在某个状态下采取相应的动作,从而在环境中达到另一个状态,在状态转移的同时获得瞬间奖励值。学习的目的是选择合适的动作,使得获得的累计奖励值最大。

强化学习要素

强化学习的模型由环境,智能体,状态,动作和奖励函数五个部分组成

环境

接收智能体执行的动作后,发生变化,同时产生一个强化信号反馈给智能体。

智能体

选择并执行一个动作(选择动作的标准是使得智能体获得的奖励函数值最大)

状态

当前所处的状态,常用S表示有限状态集,有s∈S,si表示第i步的状态

动作

即当前时刻下采取的动作,常用A表示有限动作集,有a∈A,ai表示第i步采取的动作。执行动作使其奖励函数达到最大化期望,直到最终算法收敛,所得的策略就是一系列动作的有序数据。

奖励函数

用来评估某个状态下采取某个动作后获得的奖励值,t时刻下的奖励函数值通常都被记作 Rt

强化学习分类

强化学习可分为有模型学习和无模型学习两类,其中有模型学习是指已知状态S、动作A,转移至下一状态的概率P及获得奖励R的学习方式。
两者的区别如下:

有模型无模型
控制算法值迭代、策略迭代Q-learning、Sarsa
预测方法动态规划DPMC;TD
优点高效利用数据、智能体与环境之间的交互次数会急剧减少渐进收敛
缺点复杂性很高、拟合的模型存在偏差、不能保证最优解渐近收敛。智能体与环境之间不断的交互来获得对环境的感知,交互次数很多
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值