机器学习分类:监督学习、无监督学习、半监督学习、强化学习

监督学习(Supervised Learning)

数据集为(x, y)

一些监督学习技术包括:

  1. 线性回归 (回归)
  2. 局部线性回归 (回归)
  3. logistic回归 (分类)
  4. 深度神经网络

无监督学习(Unsupervised Learning)

数据集为(x)

一些无监督学习技术包括:

  1. 自编码(Autoencoding)
  2. 主成分分析(Principal components analysis)
  3. 随机森林(Random forests)
  4. K均值聚类(K-means clustering)
  5. 生成对抗网络(generative adversarial networks)

半监督学习(Semi-supervised Learning)

半监督学习在训练阶段结合了大量未标记的数据和少量标签数据,

数据集为(x1, y1)+(x2)

强化学习(Reinforcement Learning)

数据集为(),即没有数据集,需要算法需要尝试还有探索,目标是优化整个探索过程使其得到尽可能高的reward。

举例说明强化学习以及监督学习的区别

可以分为两方面看:

  1. 强化学习是一个多次决策的过程,可以形成一个决策链,西瓜书上种西瓜的例子;监督学习只是一个一次决策的过程。
  2. 摇杠赌博机的例子
    强化学习:赌徒没有初始数据集,只能通过用某种策略取测试摇杠,期望能在整个测试过程得到最好的收益;
    监督学习:赌徒一开始就统计了所有用户在赌博机上的收益情况,然后进行监督学习得到模型。等赌徒操作摇杠赌博机时直接利用模型得到该摇哪个摇杠。
    这里面也隐含着:强化学习在测试收集数据的过程中是有代价的,而监督学习是一开始就给定了数据集,收集数据集的代价是其他人所承担的,所以监督学习不用考虑这部分的代价。

一些资料:

  1. DeepMind在Nature上发表了一篇文章,描述了一个将强化学习与深度学习结合起来的系统,该系统学会该如何去玩一套Atari视频游戏,一些取得了巨大成功(如Breakout),而另一些就没那么幸运了(如Montezuma’s Revenge(蒙特祖玛的复仇))。
  2. Nervana团队(现在在英特尔)发表了一个很好的解惑性博客文章,对这些技术进行了详细介绍,大家有兴趣可以阅读一番。
    https://www.nervanasys.com/demystifying-deep-reinforcement-learning/
  3. 在DeepMind论文中看到的那样,算法未能学习如何去玩Montezuma’s Revenge。其原因是什么呢?正如斯坦福大学生所描述的那样,“在稀缺回报函数的环境中,强化学习agent仍然在努力学习”。当你没有得到足够的“hotter”或者“colder”的提示时,你是很难找到隐藏的“钥匙”的。斯坦福大学的学生基础性地教导系统去了解和回应自然语言提示,例如“climb down the ladder”或“get the key”,从而使该系统成为OpenAI gym中的最高评分算法。算法视频观看算法演示
  4. 理查德•萨顿和安德鲁•巴托写了关于强化学习的
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值