机器学习定义
什么是机器学习?对于机器学习有两种定义:
第一种是Arthur Samuel在1959年提出的:“Field of study that gives computers the ability to learn without being explicitly programmed.”。 第二种是Tom Mitchell在1998年提出的,也是当前比较流行的定义:“A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.”。
例如:玩西洋棋
E = the experience of playing many games of checkers
T = the task of playing checkers
P = the probability that the program will win the next game
机器学习分类
一般情况下,机器学习问题可以被归纳为两类:监督学习,非监督学习。
监督学习:给定一组数据集,已知输入值及输出值,就是已知输入值及输出值的关系,使得算法学习该组数据集的过程。
根据输出值,可将监督学习分为回归和分类。
回归问题中,我们尝试预测连续的输出值,就是说输入变量到输出变量的映射为连续函数,则我们称该问题为回归问题。如:给定历史房价数据集,根据房子大小,预测房子总价,总价相对大小的关系是连续函数,所以该问题就是回归问题。
分类问题中,我们预测的值是离散的,非连续的。就是说输入值到输出值的映射关系为离散的,则我们称该问题称分类问题。如:预测根据某人的肿瘤大小,预测该肿瘤为良性还是恶性,输出值为良性(0)或恶性(1)。
无监督学习:我们可以根据很少的结果或完全不知道结果的情况下,通过数据关系得到聚类的目标结构。非监督学习没有基于预测结果的反馈。如:Google News中,对全网新闻的收集中,会将同类新闻聚类到一起。