笔记主要来自:
1 《机器学习》 周志华
2 吴恩达(Andrew Ng)斯坦福机器学习公开课
1.1 引言
机器学习并没有所谓定义。
Tom Mitchell : A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
Tom Mitchell给出了一个形式化的定义:假设用P来评估计算机程序在某任务T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
1.2 基本术语
数据集:data set
训练中使用的数据(集)称为:training data(set)
从数据中学习模型/学习器的过程称为:learning/training
示例/样本:instance/sample
属性/特征:attribute/feature
样例:example
标记:label
......其中数据集是示例的集合;示例是中含有多个特征+特征值;样例=示例+标记;
1.3 有监督学习与无监督学习
根据训练数据是否拥有标记可分为supervised learning和unsupervised learning
即原有数据是否给定标记
1.3.1 有监督学习(用于回归与分类的情况):
1.3.2 无监督学习
如图,不像有监督学习,在这里我们无法看到每个实例的correct answer,每个实例在我们看来都是一样的。
给了一个数据集,并没有提前告知其中有几种类型或者什么类型,而是要通过聚类来找到这些类型。应用:
分离两个人重叠在一起的录音
1.3 假设空间
induction和deduction,前者是从特殊到一般的泛化(generalization)【从具体事实归结出一般性的规律】,后者是从一般到特殊的特化(specialization)【从一般性的原理推出具体情况】。
induction:广义:从样例中学习
狭义:概念学习,从训练数据中学得概念
【概念学习引出假设空间】【西瓜问题的假设空间】
1.4 归纳偏好
inductive bias
算法对产生的模型的偏好,算法在很庞大的假设空间中对假设进行选择。
如何选择?一般性的原则“Occam's razor”,即“若有多个假设与观察相一致,则选最简单的那个”
多条曲线与训练集一致,我们一般会选较简单的A(如下图),但它在测试集中是否更好?
答案是不一定的,B可能更好。如下图:
即使做了最聪明的算法作为A,但在实际问题中可能笨拙算法B的表现更好,这是完全可能出现的,对任何算法成立。