《Machine Learning Yearning》第三章-第四章

这两章主要说了监督学习的重要性,以及可能需要一些深度学习的基础知识,通过Coursera可以获取。同时提出了影响学习算法的比较重要的两个因素,一个是神经网络的大小,还有一个是数据。具体的解释在以后的章节。

三. Prerequisites and Notation

 如果你已经学过机器学习课程,例如我的Coursera上的MOOC课程,或者你已经有应用监督学习的经验,那么你能够理解本文。

 我假设你已经熟悉了监督学习:使用标记好的训练样本(x,y),学习一种从x映射到y的函数。监督学习包括了线性回归(Linear Regression)、逻辑回归(Logistic regression)和神经网络(neural network)。机器学习有很多种形式,但今天机器学习的大部分实用价值来自于监督学习。

 我会经常提起神经网络(也称为深度学习)。你只需要对基本了解他们也遵循本文的内容。

 如果你对提到的内容不熟悉,观看在Coursera上的机器学习课程的前三周视频。http://ml-class.org

这里写图片描述

4. Scale drives machine learning progress

 很多有关深度学习(神经网络)的想法存在了几十年,为什么这些创意是现在才火起来呢?
 现在才取得进展的两大驱动因素是:
- 数据可利用性. 人们现在开始花更多的时间在数字设备(电脑、手机)上。他们的数字化活动产生了大量的数据,这些数据我们可以用在学习算法上
- 计算规模.几年前我们就能训练足够大的神经网络,用来利用我们现在才拥有的庞大数据集。

 详细地说,即使你积累了更多的数据,如果用老的学习算法的,例如逻辑回归,可能会引起“平稳”,这意味着它的学习曲线“变平”,即使你给它更多的数据,算法也会停止改进:
这里写图片描述

 这就好像是老的算法并不知道如何处理我们现在拥有的数据。

 如果你在同一个监督学习任务上训练一个小的神经网络(NN),你可能会获得稍好的性能。
这里写图片描述

 在这里,小的神经网络就是只有少数量的隐藏节点/层数/参数。最后,如果你训练一个大点的神经网络,你可能会得到更好的性能。
这里写图片描述

 因此,你会获得最好的性能:(1).训练一个非常大的神经网络,那么你会得到最上面那条绿色的曲线;(2)拥有大量的数据。

 还有一些其他的细节,例如神经网络的结构也是很重要,并有很多创新。但是目前提升一个算法性能更可靠的方式仍然是:(1).训练更大的网络 和(2).获得更多的数据。

 如何完成(i)和(ii)的过程非常地复杂。 本书将详细讨论细节。我们将从对传统学习算法和神经网络都有用的一般策略开始,并为深度学习系统的构建提出最现代的策略。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值