机器学习基础 之 强化学习


转自: https://www.zhenxiangsimple.com/2019/04/12/tech-ml-qhxx


  强化学习的原理,就是通过结果的反馈来对有效规则进行强化,并弱化无效或者较差的规则的一种学习原理。跟常规的监督学习不同之处在于,在学习器的训练前没有标记样本的结果,而需要通过尝试来得到各行为的结果,进而来对训练本身进行反馈。

任务与奖赏

  任务与奖赏是强化学习的一个基础概念,就是基于一个状态下通过执行某个动作(任务)使得状态发生改变,通过对改变后的状态进行对比来决定当前任务的好坏,如果状态变得更好则对任务进行奖赏。

k-摇臂赌博机

  K摇臂赌博机是一种由K个摇臂的赌博机,玩家在放入游戏币后可以选择一个摇臂进行操作,而所有摇臂本身有不同的概率来赢得奖励,具体摇臂本身出的奖赏也只是一个概率值并非确定值,玩家需要自己根据尝试的结果来判断概率后,去最大化自己的奖赏。这个规则跟强化学习中的单步任务的模型一致,即在行为中仅考虑单步操作的最大奖赏,常用策略有 ϵ \epsilon

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

放羊郎

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值