机器学习 - 什么是机器学习

目录

1. 机器学习、统计学习和统计学的基本概念

2. 机器学习和统计学的区别与关系

3. 统计模型和机器学习的应用场景示例

4. 参考


1. 机器学习、统计学习和统计学的基本概念

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

统计学习是使用统计方法的一种机器学习。可视作基于数据的机器学习问题的一个特例。从一些观测(训练)样本出发,试图得到一些不能通过原理分析得到的规律,并利用这些规律来分析客观对象,从而对未来的数据进行较为准确的预测。

统计学习可以理解为在机器学习的学科下,利用统计学知识和数值型数据来进行机器学习(或优化)。当然对于机器学习来说,除了统计学习还有其它的学习方法。

统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域。

统计学主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。统计学主要分为描述统计学和推断统计学(统计推断)。统计推断主要可以分为两大类:一类是参数估计问题;另一类是假设检验问题。

统计学的目的就是进行统计推断,即根据样本数据对总体进行统计推断(假设检验或预测)。

2. 机器学习和统计学的区别与关系

机器学习和统计学的主要区别在于它们的目的。机器学习模型旨在使最准确的预测成为可能。统计模型是为推断变量之间的关系而设计的。

统计模型是数据的模型,主要用于推断数据中不同内容的关系,或创建能够预测未来值的模型。通常情况下,这两者是相辅相成的。说得更直白些就是,有很多统计模型可以做出预测,但预测效果比较差强人意。而机器学习通常会牺牲可解释性以获得强大的预测能力。例如,从线性回归到神经网络,尽管解释性变差,但是预测能力却大幅提高。

以线性回归为例,线性回归是一种统计方法,通过这种方法第一种情况我们可以训练一个线性回归器,第二种情况可以通过最小二乘法拟合出一个有着相同结果的统计回归模型。

第一种情况中我们是在训练模型,它只用到了数据的一个子集,而训练得到的模型究竟表现如何需要通过数据的另一个子集测试集测试之后才能知道。这个过程就是机器学习,机器学习的最终目的是在测试集上获得最佳性能。

第二种情况首先假设数据是一个具有高斯噪声的线性回归量,然后试图找到一条线,最大限度地减少了所有数据的均方误差。这种方法不需要训练集或测试集,建模的目的是描述数据与输出变量之间的关系,而不是对未来数据进行预测。我们称此过程为统计推断,而不是预测,尽管我们可以使用此模型进行预测,但评估模型的方法不再是测试集,而是评估模型参数的显著性和健壮性。

综上,机器学习(这里特指有监督学习)的目的是获得一个可反复预测的模型。我们通常不关心模型是否可以解释,机器学习只在乎结果。而统计建模更多的是为了寻找变量之间的关系和确定关系的显著性,只是恰巧迎合了预测。

3. 统计模型和机器学习的应用场景示例

对于一名环境科学家,工作的主要内容是和传感器数据打交道。如果科学家试图证明传感器能够对某种刺激(如气体浓度)做出反应,,那么科学家将使用统计模型来确定信号响应是否具有统计显著性。并且科学家会尝试理解这种关系,并测试其可重复性,以便能够准确地描述传感器的响应,并根据这些数据做出推断。科学家还可能测试响应是否是线性的?响应是否归因于气体浓度而不是传感器中的随机噪声?等等。这就是统计模型的使用场景。

而同时科学家也可以拿着从20个不同传感器得到的数据,去尝试预测一个可由他们表征的传感器的响应。用一个包含20个不同变量的模型来表征传感器的输出显然是一种预测,而且科学家也没期待模型是可解释的。要知道,由于化学动力学产生的非线性以及物理变量与气体浓度之间的关系等等因素,可能会使这个模型非常深奥,就像神经网络那样难以解释。尽管科学家希望这个模型能让人看懂,但其实只要它能做出准确的预测,科学家就相当高兴了。这就是机器学习的使用场景。

很明显,这两种方法在目标上是不同的,尽管使用了相似的方法来达到目标。机器学习算法的评估使用测试集来验证其准确性。然而,对于统计模型,通过置信区间、显著性检验和其他检验对回归参数进行分析,可以用来评估模型的合法性。因为这些方法产生相同的结果,所以很容易理解为什么人们会假设它们是相同的。

4. 参考

  1. 机器学习
  2. 统计学习
  3. The Actual Difference Between Statistics and Machine Learning
  4. 「统计学」「统计推断」「统计学习」有什么区别?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Encarta1993

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值