简单理解有监督学习、无监督学习、强化学习

学习深度学习过程中,如果有一本好的书跟读可以最快的入门。

最开始看了李沐老师的动手学深度学习,书中有理论知识,有代码,可以很好的入门。代码使用的mxnet框架,可能在学校中使用的较少

 

今天看到一本书,龙龙老师的TensorFlow深度学习,电子版免费开放https://github.com/dragen1860/Deep-Learning-with-TensorFlow-book

 

书中第一章介绍机器学习

机器学习可以分为有监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)、强化学习(Reinforcement Learning)

 

有监督学习:

有监督学习的数据集包含了样本x与样本的标签y,算法模型需要学习到映射关系\Gamma _{\Theta }:x——>y,其中\Gamma _{\Theta }代表模型函数,\Theta为模型参数。在训练时,通过计算模型的预测值\Gamma _{\Theta }\left ( x \right )与真实标签y之间的误差,来优化网络参数\Theta,使得网络的下一次预测能够预测更精准。常见的有监督学习有    线性回归、逻辑回归、支持向量机、随机森林等。

 

无监督学习:

收集带标签的数据往往会代价较为昂贵,对于只有样本x的数据集,算法需要自行发现数据的模态,这种方式叫做无监督学习。

无监督学习中有一类算法将自身作为监督信号,即模型需要学习的映射为\Gamma _{\Theta }:x——>x,称为自监督学习(self-supervised Learning)。

通过计算模型的预测值\Gamma _{\Theta }\left ( x \right )与x之间的误差来优化网络参数\Theta

常见的无监督学习算法有   自编吗器、生成对抗网络等。

 

强化学习:

增强学习。通过与环境进行交互来学习解决问题的策略 的一类算法。

与有监督、无监督学习不同,强化学习问题并没有明确“正确的”动作监督信号,算法需要与环境进行交互,获取环境反馈的滞后的奖励信号,因此并不能通过计算动作与“正确动作”之间的误差来优化网络。常见的强化学习算法有DQN,PPO等。

 

 

 

 

 

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值