1、机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。同时 Mitchell(1997) 给出了一个更形式化的定义:假设用 P 来评估计算机程序在某任务类 T 上的性能,若一个程序通过利用经验 E 在 T 中任务上获得了性能改善,则我们就说关于 T 和 P,该程序对 E 进行了学习。
2、机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“机器学习算法”。
3、本书用“模型”泛指从数据中学得的结果,有文献用“模型”指全局性结果(例如一棵决策树),而用“模式”指局部性结果(例如一条规则)。
4、从数据中学得模型的过程称为“学习”(learning)或“训练”(training),这个过程通过执行某个学习算法来完成。
5、若预测的值是离散值则此类学习任务被称为“分类”;若预测的是连续值则此类学习任务称为“回归”;对只涉及两个类别的“二分类”任务,通常称其中一个类为“正类”,另一个类为“反类”;涉及多个类别时,则称为“多分类”任务。
6、根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习” 和 “无监督学习”,分类和回归是前者的代表,而聚类则是后者的代表。
7、学得模型适用于新样本的能力,称为“泛化”(generalization)能力
8、侠义的归纳学习要求从训练数据中学得概念(concept), 因此被称为“概念学习”或“概念形成”
9、机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductive bias)或简称为“偏好”
10、任何一个有效的机器学习算法必有其归纳偏好
11、