关于 Machine Learning 与 Statistical Modeling 的那些事

最新推荐文章于 2023-03-26 13:37:37 发布

weixin_34239592

最新推荐文章于 2023-03-26 13:37:37 发布

阅读量255

点赞数

文章标签：人工智能

原文链接：https://juejin.im/post/5bb309ebe51d450e9c55995a

版权

机器学习与统计模型

在资料科学的讨论中，这样的问题是很多人想知道，也是一个难以三言两语回答的问题：

机器学习与统计模型有什么不同？

一般来说，这两个项目所研究的目标相近，不同的是使用的背景不同。机器学习是资工领域发展的议题；统计模型是统计学所探讨的领域。这是一张有趣的图来说明资料科学中之间错综复杂的交织关系：

首先，不管是机器学习或是统计模型都有一个共同的目标－ Learning from Data. 这两种方法的目的都是透过一些处理资料的过程中，对资料更进一步的了解与认识。

来看看这两者在科学上的简单定义：

Machine Learning: an algorithm that can learn from data without relying on rules-based programming.
Statistical Modelling: formalization of relationships between variables in the form of mathematical equations.

换个角度，看看实际上使用上有什么差异。这是一张 McKinsey 用于客户风险预测问题的结果，有 A 、 B 两个变数。绿色线是统计方法得出的规则；等曲线是机器学习方法发现的，两者皆能够指出风险较高的趋势。

统计方法用一个方程式去描述分类问题，将资料找出一个分割线将结果分成两类。然而，从机器学习的方法找出来的是一圈一圈的等曲线，看起来似乎可以得到更广泛的结果，而不只是简单的分类问题。

机器学习是从资工及人工智慧中发展而来的领域，透过非规则的方法去学习资料分布的关系。统计模型是统计学中利用这种变量去描述与结果的关系。统计模型是基于与说严格的限制下去进行的，称为假设检定，这也是与机器学习方法上的不同。

基于假设检定下的发展，使得统计模型能找出更贴近「现有资料」的趋势。然而，预测的目的是为了找出「未来资料」或所有资料，但假设会使得资料太贴近现有资料（机器学习中称为过拟和的一种问题）。严格的假设也成了统计学习的一种双面刃，有一句资料科学中流传的名言是这样讲的：the lesser assumptions in a predictive model, higher will be the predictive power.

算式与定义

机器学习

一种不依赖于规则设计的数据学习算法；计算机科学和人工智慧的一个分支，通过数据学习构建分析系统，不依赖明确的构建规则。

Output Y = f(Input X): X \rightarrow Y

统计模型

以数学方程形式表现变量之间关系的程式化表达；数学的分支用以发现变量之间相关关系从而预测输出。

Dependent Variable Y = f( Independent Variable X ) + error function

后记

不管是统计专家或机器学习专家，甚至是太空物理学家，基本上都是想要建立模型来诠释这世界的种种现象，但主要的差别在于，统计模型有考虑了随机误差，并且对随机误差有一整套严密的解释体系，但其他领域的专家所建立的模型未必有考量到随机误差。如果自然界与人类社会的种种现象没有这个随机误差的存在，整个统计领域可以完全消失也无所谓。

接触过机器学习、资料探勘的人大概都知道，如果没有整个母体的模型假设加上随机误差模型的搭配，很多号称「表现很好」的模型，其实过一阵子就都会完蛋，也因此经常需要持续不断的微调参数。

Reference

License

本著作由Chang Wei-Yaun (v123582)制作，以创用CC 姓名标示-相同方式分享 3.0 Unported授权条款释出。

转载于:https://juejin.im/post/5bb309ebe51d450e9c55995a

weixin_34239592

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于 Machine Learning 与 Statistical Modeling 的那些事

机器学习与统计模型在资料科学的讨论中，这样的问题是很多人想知道，也是一个难以三言两语回答的问题：机器学习与统计模型有什么不同？一般来说，这两个项目所研究的目标相近，不同的是使用的背景不同。机器学习是资工领域发展的议题；统计模型是统计学所探讨的领域。这是一张有趣的图来说明资料科学中之间错综复杂的交织关系：首先，不管是机器学习或是统计模型都有一个共同的目标－ Learning fr...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。