机器学习能做什么?
采用怎样的策略或算法发现“数据”和“答案”之间的关联性,并以哪种形式的规则体现,是机器学习的核心。
机器学习的学习对象:数据集,数据集一般以二维表(也就是扁平表)形式组织,由多个行和列组成。数据集中的一行通常称为一个样本观测,如果数据集由N个样本观测组成,则称该数据集的样本容量或样本量为N。数据集中的一列通常称为一个变量(也称特征),用于描述数据的某种属性或状态。
机器学习的任务:机器学习通过向数据集学习,完成两大主要任务,数据预测和数据聚类。
数据预测,简而言之就是基于已有数据集,归纳出输入变量和输出变量之间的数量关系,在数量关系具有普适性和未来不变的假设下,将其用于对新数据输出变量取值的预测。进一步,数据预测可细分为回归和分类。对数值型输出变量的预测问题统称为回归问题,对分类型输出变量的预测统称为分类问题,本质是给出输出变量的分类标签。如果输出变量仅有两个类别,称其为二分类预测。如果输出变量有两个以上的类别,则称其为多分类预测。
数据集中蕴含着非常多的信息,其中较为典型的是,数据集可能由若干小的数据子集组成。数据聚类的目的是发现数据中可能存在的小类,并通过小类刻画和揭示数据的内在组织结构。数据聚类的最终结果是:给每个样本观测指派一个表明其属于哪个小类的标签,称为聚类解,且聚类解将保存在一个新生成的分类型变量中。
数据聚类和数据预测中的分类问题有联系更有区别。联系在于:数据聚类的结果是每个样本观测有一个小类标签,分类问题是给输出变量一个分类值,本质上也是给每个样本观测一个标签。区别在于:分类问题中变量有输入变量和输出变量之分,且分类标签(保存在输出变量中)的真实值是已知的;但数据聚类中变量没有输入变量和输出变量之分,所有变量均视为聚类变量参与数据分析,且小类标签(保存在聚类变量中)的真实值是未知的。