机器学习的三种方式

监督学习、无监督学习、强化学习

强化学习

举例1

• 强化学习的思路和人比较类似,是在实践中学习
• 比如学习走路,如果摔倒了,那么我们大脑后面会给一个负面的奖励值 =>这个走路姿势不好;如果后面正常走了一步,那么大脑会给一个正面的奖励值 =>这是一个好的走路姿势

举例2:

• 强化学习没有教师信号,也没有label,即没有直接指令告诉机器该执行什么动作
• 反馈有延时,不能立即返回
• 输入数据是序列数据,是一个连续的决策过程

比如AlphaGo下围棋的Agent,可以不使用监督学习:
请一位围棋大师带我们遍历许多棋局,告诉我们每个位置的最佳棋步,这个代价很贵expe nsive

• 很多情况下,没有最佳棋步,因为一个棋步的好坏依赖于其后的多个棋步
• 使用强化学习,整个过程唯一的反馈是在最后(赢or输)

与监督学习的区别

没有监督学习已经准备好的训练数据输出值,强化学习只有奖励值,但 是这个奖励值和监督学习的输出值不一样,它不是事先给出的,而是延后给出的(比如走路 摔倒)

与非监督学习的区别

在非监督学习中既没有输出值也没有奖励值的,只有数据特征,而强 化学习有奖励值(为负是为惩罚),此外非舰队学习与监督学习一样,数据之间也都是独立的, 没有强化学习这样的前后依赖关系

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值