什么是机器学习?(1)

1、机器学习的定义

从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。

  • “训练”与“预测”是机器学习的两个过程,“模型”则是过程的中间输出结果,“训练”产生“模型”,“模型”指导 “预测”。
  • 机器学习方法是计算机利用已有的数据(经验),得出了某种模型(迟到的规律),并利用此模型预测未来(是否迟到)的一种方法。

让我们把机器学习的过程与人类对历史经验归纳的过程做个比对。
在这里插入图片描述
机器学习中的“训练”与“预测”过程可以对应到人类的“归纳”和“推测”过程。通过这样的对应,我们可以发现,机器学习的思想并不复杂,仅仅是对人类在生活中学习成长的一个模拟。由于机器学习不是基于编程形成的结果,因此它的处理过程不是因果的逻辑,而是通过归纳思想得出的相关性结论。

2、机器学习的范围

  • 机器学习可以理解为计算应用统计学;ML是关于归纳induction(特殊/具体到一般/抽象),而不是演绎deduction(一般/抽象到特殊/具体)或者 溯因abduction。

  • 学习机器学习这门学科,主要是学习思想,公式和算法是对思想进行量化的工具。

  • 数据(指做了数据预处理和特征工程的数据)决定了模型的上限,而算法只是逼近这个上限。

  • 机器学习和深度学习的核心问题在于有意义的变换数据,即学习输入数据的有用表示(representation)。所谓“表示”,就是用不同的方式来查看数据(数据编码或表证数据)。所谓“学习”,就是寻找更好数据表示的自动搜索过程。

  • 机器学习(尤其是深度学习)呈现出相对较少的数学理论,是以工程为导向,是一门需要上手实践的学科。

  • 想要控制一件事物,首先需要能够观察它。对于机器学习来说,观察点就是损失函数(loss function)。

  • 面对一个尚没有已知解决方案的新问题,可先尝试一种基于常识的基准(baseline)方法,它可以作为合理性检查,而更高级的机器学习模型需要打败这个基准才能表现其有效性。

  • 模式识别=机器学习。两者的主要区别在于前者是从工业界发展起来的概念,后者则主要源自计算机学科。

  • 数据挖掘=机器学习+数据库。大部分数据挖掘中的算法是机器学习的算法在数据库中的优化。

  • 统计学习近似等于机器学习。机器学习中的大多数方法来自统计学;但是在某种程度上两者是有分别的,这个分别在于:统计学习者重点关注的是统计模型的发展与优化,偏数学,而机器学习者更关注的是能够解决问题,偏实践,因此机器学习研究者会重点研究学习算法在计算机上执行的效率与准确性的提升。

  • 计算机视觉=图像处理+机器学习。图像处理技术用于将图像处理为适合进入机器学习模型中的输入,机器学习则负责从图像中识别出相关的模式。

  • 语音识别=语音处理+机器学习。

  • 自然语言处理=文本处理+机器学习。

3、机器学习的子类–深度学习

虽然深度学习这四字听起来颇为高大上,但其理念却非常简单,就是传统的神经网络发展到了多隐藏层的情况。2006年,Geoffrey Hinton在科学杂志《Science》上发表了一篇文章,论证了两个观点:

  • 2006年,Geoffrey Hinton在科学杂志《Science》上发表了一篇文章,论证了两个观点:
  • 深度神经网络在训练上的难度,可以通过“逐层初始化” 来有效克服。

通过这样的发现,不仅解决了神经网络在计算上的难度,同时也说明了深层神经网络在学习上的优异性。从此,神经网络重新成为了机器学习界中的主流强大学习技术。同时,具有多个隐藏层的神经网络被称为深度神经网络,基于深度神经网络的学习研究称之为深度学习。

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值