一 、机器学习基本分类
按照训练集有无标签分为:监督学习和无监督学习
监督学习:分类和回归(预测值为离散值时为分类任务)
无监督学习:聚类
二 、基本术语
样本/示例:一个事件或对象的描述,也称一个示例为一个特征向量。
样本属性:反映事件或对象某方面的表现或性质。
样本的维数:样本属性值的个数
假设:从训练集上学得 的模型对应了关于数据的某种潜在的规律,亦称为假设。
泛化能力:学得得模型在新样本上的能力。
归纳:从具体事实归结出一般性的规律。
演绎:从一般到特殊的特化。
归纳偏好:机器学习算法本身做出的关于“什么样的模型更好的假设”
奥卡姆剃刀原则:若有多个假设与观察一致,则选择最简单的那一个。
NFL(没有免费的午餐理论):在所有问题出现机会均等、或所有问题同等重要的前提下任何算法的期望性能都相同。
三、发展历程
R.S.Michalski等人(1983)将机器学习划分为:从样例中学习、在问题求解和规划中学习、通过观察和发现学习、从指令中学习等种类。
E.A.Feigenbaum等人(1983)把机器学习划分为:机械学习、示教学习、归纳学习、类比学习等种类。
从样例中学习的两大主流:符号主义和连接主义。
最早20世纪50年代已有机器学习相关研究:著名A.Samuel的跳棋程序。
20世纪50年代中后期基于神经网络的连接主义学习开始出现。
20世纪50年代到70年代:推理期。
20世纪70年代中期到八十年代:知识期(专家系统)。
20世纪80年代符号主义学习:决策树和基于逻辑的学习(归纳逻辑程序设计)。
20世纪90年代中期:统计学习代表支持向量机以及核方法。
21世纪初连接主义卷土重来,名为深度学习(狭义上说就是多层神经网络)。