机器学习分类：监督学习、无监督学习、半监督学习、强化学习

最新推荐文章于 2024-05-23 00:06:56 发布

jason_cuijiahui

最新推荐文章于 2024-05-23 00:06:56 发布

阅读量5.3k

点赞数

分类专栏：机器学习数据挖掘文章标签：机器学习 2017

本文链接：https://blog.csdn.net/jason_cuijiahui/article/details/78144317

版权

机器学习同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

监督学习（Supervised Learning）

数据集为(x, y)

一些监督学习技术包括：

线性回归（回归）
局部线性回归（回归）
logistic回归（分类）
深度神经网络

无监督学习（Unsupervised Learning）

数据集为(x)

一些无监督学习技术包括：

自编码（Autoencoding）
主成分分析（Principal components analysis）
随机森林（Random forests）
K均值聚类（K-means clustering）
生成对抗网络（generative adversarial networks）

半监督学习（Semi-supervised Learning）

半监督学习在训练阶段结合了大量未标记的数据和少量标签数据,

数据集为(x1, y1)+(x2)

强化学习（Reinforcement Learning）

数据集为()，即没有数据集，需要算法需要尝试还有探索，目标是优化整个探索过程使其得到尽可能高的reward。

举例说明强化学习以及监督学习的区别

可以分为两方面看：

强化学习是一个多次决策的过程，可以形成一个决策链，西瓜书上种西瓜的例子；监督学习只是一个一次决策的过程。
摇杠赌博机的例子
强化学习：赌徒没有初始数据集，只能通过用某种策略取测试摇杠，期望能在整个测试过程得到最好的收益；
监督学习：赌徒一开始就统计了所有用户在赌博机上的收益情况，然后进行监督学习得到模型。等赌徒操作摇杠赌博机时直接利用模型得到该摇哪个摇杠。
这里面也隐含着：强化学习在测试收集数据的过程中是有代价的，而监督学习是一开始就给定了数据集，收集数据集的代价是其他人所承担的，所以监督学习不用考虑这部分的代价。

一些资料：

DeepMind在Nature上发表了一篇文章，描述了一个将强化学习与深度学习结合起来的系统，该系统学会该如何去玩一套Atari视频游戏，一些取得了巨大成功（如Breakout），而另一些就没那么幸运了（如Montezuma’s Revenge（蒙特祖玛的复仇））。
Nervana团队（现在在英特尔）发表了一个很好的解惑性博客文章，对这些技术进行了详细介绍，大家有兴趣可以阅读一番。
https://www.nervanasys.com/demystifying-deep-reinforcement-learning/
在DeepMind论文中看到的那样，算法未能学习如何去玩Montezuma’s Revenge。其原因是什么呢？正如斯坦福大学生所描述的那样，“在稀缺回报函数的环境中，强化学习agent仍然在努力学习”。当你没有得到足够的“hotter”或者“colder”的提示时，你是很难找到隐藏的“钥匙”的。斯坦福大学的学生基础性地教导系统去了解和回应自然语言提示，例如“climb down the ladder”或“get the key”，从而使该系统成为OpenAI gym中的最高评分算法。算法视频观看算法演示
理查德•萨顿和安德鲁•巴托写了关于强化学习的书

jason_cuijiahui

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
机器学习分类：监督学习、无监督学习、半监督学习、强化学习

监督学习（Supervised Learning）数据集为(x, y)一些监督学习技术包括：线性回归（回归）局部线性回归（回归）logistic回归（分类）深度神经网络无监督学习（Unsupervised Learning）数据集为(x)一些无监督学习技术包括：自编码（Autoencoding）主成分分析（Principal components analysis）随机森林（R
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。