关于 Machine Learning 与 Statistical Modeling 的那些事

机器学习 与 统计模型

在资料科学的讨论中,这样的问题是很多人想知道,也是一个难以三言两语回答的问题:

机器学习与统计模型有什么不同?

一般来说,这两个项目所研究的目标相近,不同的是使用的背景不同。机器学习是资工领域发展的议题;统计模型是统计学所探讨的领域。这是一张有趣的图来说明资料科学中之间错综复杂的交织关系:

首先,不管是机器学习或是统计模型都有一个共同的目标 - Learning from Data. 这两种方法的目的都是透过一些处理资料的过程中,对资料更进一步的了解与认识。

来看看这两者在科学上的简单定义:

  • Machine Learning: an algorithm that can learn from data without relying on rules-based programming.
  • Statistical Modelling: formalization of relationships between variables in the form of mathematical equations.

换个角度,看看实际上使用上有什么差异。这是一张 McKinsey 用于客户风险预测问题的结果,有 A 、 B 两个变数。绿色线是统计方法得出的规则;等曲线是机器学习方法发现的,两者皆能够指出风险较高的趋势。

统计方法用一个方程式去描述分类问题,将资料找出一个分割线将结果分成两类。然而,从机器学习的方法找出来的是一圈一圈的等曲线,看起来似乎可以得到更广泛的结果,而不只是简单的分类问题。

机器学习是从资工及人工智慧中发展而来的领域,透过非规则的方法去学习资料分布的关系。统计模型是统计学中利用这种变量去描述与结果的关系。统计模型是基于与说严格的限制下去进行的,称为假设检定,这也是与机器学习方法上的不同。

基于假设检定下的发展,使得统计模型能找出更贴近「现有资料」的趋势。然而,预测的目的是为了找出「未来资料」或所有资料,但假设会使得资料太贴近现有资料(机器学习中称为 过拟和的一种问题)。严格的假设也成了统计学习的一种双面刃,有一句资料科学中流传的名言是这样讲的:the lesser assumptions in a predictive model, higher will be the predictive power.

算式与定义

机器学习

一种不依赖于规则设计的数据学习算法;计算机科学和人工智慧的一个分支,通过数据学习构建分析系统,不依赖明确的构建规则。

Output Y = f(Input X): X \rightarrow Y

统计模型

以数学方程形式表现变量之间关系的程式化表达;数学的分支用以发现变量之间相关关系从而预测输出。

Dependent Variable Y = f( Independent Variable X ) + error function

后记

不管是统计专家或机器学习专家,甚至是太空物理学家,基本上都是想要建立模型来诠释这世界的种种现象,但主要的差别在于,统计模型有考虑了随机误差,并且对随机误差有一整套严密的解释体系,但其他领域的专家所建立的模型未必有考量到随机误差。如果自然界与人类社会的种种现象没有这个随机误差的存在,整个统计领域可以完全消失也无所谓。

接触过机器学习、资料探勘的人大概都知道,如果没有整个母体的模型假设加上随机误差模型的搭配,很多号称「表现很好」的模型,其实过一阵子就都会完蛋,也因此经常需要持续不断的微调参数。

Reference

  1. Difference between Machine Learning & Statistical Modeling
  2. 【陈景祥专栏】当统计专家遇上机器学习专家

License

本著作由Chang Wei-Yaun (v123582)制作, 以创用CC 姓名标示-相同方式分享 3.0 Unported授权条款释出。

转载于:https://juejin.im/post/5bb309ebe51d450e9c55995a

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Statistical Reinforcement Learning: Modern Machine Learning Approaches Masashi Sugiyama Taylor & Francis, 16 Mar 2015 - Business & Economics - 206 pages Reinforcement learning is a mathematical framework for developing computer agents that can learn an optimal behavior by relating generic reward signals with its past actions. With numerous successful applications in business intelligence, plant control, and gaming, the RL framework is ideal for decision making in unknown environments with large amounts of data. Supplying an up-to-date and accessible introduction to the field, Statistical Reinforcement Learning: Modern Machine Learning Approaches presents fundamental concepts and practical algorithms of statistical reinforcement learning from the modern machine learning viewpoint. It covers various types of RL approaches, including model-based and model-free approaches, policy iteration, and policy search methods. Covers the range of reinforcement learning algorithms from a modern perspective Lays out the associated optimization problems for each reinforcement learning scenario covered Provides thought-provoking statistical treatment of reinforcement learning algorithms The book covers approaches recently introduced in the data mining and machine learning fields to provide a systematic bridge between RL and data mining/machine learning researchers. It presents state-of-the-art results, including dimensionality reduction in RL and risk-sensitive RL. Numerous illustrative examples are included to help readers understand the intuition and usefulness of reinforcement learning techniques. This book is an ideal resource for graduate-level students in computer science and applied statistics programs, as well as researchers and engineers in related fields.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值