机器学习的三种方式

最新推荐文章于 2024-06-05 16:16:29 发布

一燊芊芊

最新推荐文章于 2024-06-05 16:16:29 发布

阅读量1.3k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38689232/article/details/104486675

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

监督学习、无监督学习、强化学习

强化学习

举例1

• 强化学习的思路和人比较类似，是在实践中学习
• 比如学习走路，如果摔倒了，那么我们大脑后面会给一个负面的奖励值 =>这个走路姿势不好；如果后面正常走了一步，那么大脑会给一个正面的奖励值 =>这是一个好的走路姿势

举例2:

• 强化学习没有教师信号，也没有label，即没有直接指令告诉机器该执行什么动作
• 反馈有延时，不能立即返回
• 输入数据是序列数据，是一个连续的决策过程

比如AlphaGo下围棋的Agent，可以不使用监督学习：
请一位围棋大师带我们遍历许多棋局，告诉我们每个位置的最佳棋步，这个代价很贵expe nsive

• 很多情况下，没有最佳棋步，因为一个棋步的好坏依赖于其后的多个棋步
• 使用强化学习，整个过程唯一的反馈是在最后（赢or输）

与监督学习的区别

没有监督学习已经准备好的训练数据输出值，强化学习只有奖励值，但是这个奖励值和监督学习的输出值不一样，它不是事先给出的，而是延后给出的（比如走路摔倒）

与非监督学习的区别

在非监督学习中既没有输出值也没有奖励值的，只有数据特征，而强化学习有奖励值（为负是为惩罚），此外非舰队学习与监督学习一样，数据之间也都是独立的，没有强化学习这样的前后依赖关系

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习的三种方式

监督学习、无监督学习、强化学习• 强化学习的思路和人比较类似，是在实践中学习• 比如学习走路，如果摔倒了，那么我们大脑后面会给一个负面的奖励值 =>这个走路姿势不好；如果后面正常走了一步，那么大脑会给一个正面的奖励值 =>这是一个好的走路姿势与监督学习的区别，没有监督学习已经准备好的训练数据输出值，强化学习只有奖励值，但是这个奖励值和监督学习的输出值不一样，它不是事先给出的，而...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。