一、文字定义
机器学习:从data出发,最终目标是提高可以衡量的某方面表现。
可以称为机器学习的话,这个任务必须有如下三点:
- 必然有某种潜在规律可以学习
例:预测下一次打喷嚏的时刻是奇数还是偶数,这个事情无规律可循,不属于机器学习 - 没有简单的可以定义的解决办法途径
例:桌面上有多少件物品是方形的? 这件事情有明确定义,明确的规则,不需要机器学习来预测。 - 一定量相关数据的输入。
例:地球什么时候毁灭? 地球还没有毁灭,我们没有任何相关经验数据来输入对这件事情做预测。
二、数学定义
如下图所示:
我们用文字再做一次表达:
Data集包括输入X和输出Y,从X到Y的映射,背后是有函数f做支撑。
我们不知道f的形式,所以只能通过大量的Data,使用ML对应的假设模型(hypothesis)来生成g
通常情况(非线性)下,g不可能与f完全相同,但是,我们学习机器学习的目的就是为了让g尽可能的逼近潜在的无法准确定义的f,从而在面对未知的输入X的时候,我们能够给出相对准确的Y(预测)
三、与其他学科的区别
1. 数据挖掘
从定义上来说:数据挖掘是从数据中找出一些有趣的有规律的东西。
如果找出“有趣的东西”是找出一个g来逼近真实值,那么数据挖掘 = 机器学习。
如果找出“有趣的东西”是与机器学习寻找的g相关,那么数据挖掘会帮助到机器学习。
总的来说,他们很像。数据挖掘比机器学习的范围稍微广一点。
2. 人工智能
人工智能的定义:计算机能够做出有智慧的决策
机器学习是实现人工智能的一种途径。
3. 统计学
统计学:使用数据来推断某个未知的事情。
与机器学习的关系:统计是实现机器学习的方法。(当前最常用的方法)
区别:统计毕竟是数学范畴,重推论,理论与证明。