第一章 绪论
1.1 引言
-
做出有效预判的前提是经验的积累,经验可以使我们对新情况做出有效的预测
-
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能
-
计算机中经验通常以数据形式存在
-
机器学习研究的主要内容:在计算机上从数据中产生模型(model)的算法,即学习算法(learning algorithm)
-
将经验数据提供给学习算法,它就能基于这些数据产生模型
-
机器学习的形式化定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
-
例:
-
任务T:让计算机识别菊花和玫瑰花
-
经验E:一大堆菊花和玫瑰花的图片
-
性能指标P:识别率(Recognition Rate )(不同算法的P是不相同的)
-
-
例:
-
任务T:设计程序让机器人冲咖啡
-
经验E:机器人多次尝试的行为和这些行为产生的结果
-
性能指标P:在规定时间内成功冲好咖啡的次数
-
-
E和P是由设计算法的人决定的,没有标准答案
-
-
计算机科学是研究关于算法的学问\Rightarrow机器学习是研究关于学习算法的学问
-
西瓜书用模型泛指从数据中学得的结果,也有文献用模型指全局性结果,用模式指局部性结果
1.2 基本术语
-
数据集(data set):一组数据记录的集合
-
示例(instance)/样本(sample):数据集中的一条关于一个事件或对象的描述的记录(有时整个数据集也课称为一个样本,此时看作是对样本空间的一个采样)
-
属性(attribute)/特征(feature):反映事件或对象在某方面的表现或性质的事项,如“色泽”,“根蒂”,“敲声”
-
属性值(attribute value):属性上的取值,如“青绿”,“乌黑”
-
属性空间(attribute space)/样本空间(sample space)/输入空间:属性张成的空间
-
特征向量(feature vector):某个示例在属性空间中对应的坐标向量
-
例:把“色泽”,“根蒂”,“敲声”作为三个坐标轴,张成了一个用于描述西瓜的三维空间,每个西瓜都能在这个空间中找到自己的坐标位置,即对应一个坐标向量,此坐标向量就是特征向量
-
-
definition:一般地,令
表示包含m个示例的数据集,每个示例由d个属性描述,则每个示例
是d维样本空间
中的一个向量,
,其中
是
在第j个属性上的取值,d称为样本
的维数(dimensionality)
-
学习(learning)/训练(training):从数据中学得模型的过程
-
训练数据(training data):训练过程中使用的数据
-
训练样本(training sample):训练过程的每个样本
-
训练集(training set):训练样本组成的集合
-
假设(hypothesis):学得模型对应的关于数据的某种潜在的规律
-
真相/真实(ground-truth):潜在规律自身
-
学习过程就是为了找出或逼近真相
-
学习器(learner):模型的别称,可看作学习算法在给定数据和参数空间上的实例化
-
学习算法通常有参数需设置,使用不同的参数值或训练数据,将产生不同的结果
-
标记(label):关于示例结果的信息,如"好瓜"
-
样例(example):有了标记信息的示例,一般地,用
表示第i个样例,其中
是示例
的标记,
是所有标记的集合,也称为"标记空间"(label space)或“输出空间”
-
预测结果是离散值的学习任务称为“分类”(classification),预测结果是连续值的学习任务称为“回归”(regression)
-
只涉及两个类别的为二分类任务,其中一个类为正类(positive class),另一个类为反类(negative class),涉及多个类别时,称为多分类任务(multi-class classification)
-
一般地,预测任务是希望通过对训练集
进行学习,建立一个从输入空间X到输出空间Y的映射
。对二分类任务,通常令
或
,对多分类任务,|Y|>2;对回归任务,
,
为实数集。
-
测试(testing):学得模型后,使用其进行预测的过程
-
测试样本(testing sample):被预测的样本
-
聚类(clustering):将训练集中的西瓜分成若干组,每组称为一个簇(cluster),自动形成的簇可能对应一些潜在的划分,如“浅色瓜”,“深色瓜”,“本地瓜”,“外地瓜”
-
在聚类学习中,“浅色瓜”,“本地瓜”这样的概念我们事先是不知道的
-
训练数据是否有标记信息
-
有:监督学习(supervised learning),代表:分类、回归
-
无:无监督学习(unsupervised learning),代表:聚类
-
-
泛化能力(generalization):学得模型适用于新样本的能力
-
具有强泛化能力的模型能很好地适用于整个样本空间
-
通常假设样本空间中全体样本服从一个未知“分布”(distribution)D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distributed,简称i.i.d)
-
一般而言,训练样本越多,我们得到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型(也就是说,数据越多越好)
1.3 假设空间
-
归纳(induction):从特殊到一般的泛化(generalization)过程,即从具体的事实归结出一般性规律
-
演绎(deduction):从一般到特殊的特化(specialization)过程,即从基础原理推演出具体情况
-
例:基于一组公理和推理规则推导出与之相洽的定理
-
-
从样例中学习显然是一个归纳过程,也称为归纳学习(inductive learning)
-
广义归纳学习相当于从样例中学习
-
狭义归纳学习要求从训练数据中学得概念(concept),也称为“概念学习”或“概念形成”
-
该领域目前研究、应用都较少,因为要学得泛化性嗯那个好且语义明确的概念太困难,现实常用的技术大多是产生“黑箱”模型
-
概念学习中最基本的是布尔概念学习
-
-
学习过程是一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设
-
假设的表示一旦确定,假设空间及其规模大小就确定了
-
版本空间(version space):一个与训练集一致的“假设集合”,即满足好瓜的条件的假设的集合
1.4 归纳偏好
-
机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductive bias),简称为“偏好”
-
任何一个有效的机器学习算法必有其归纳偏好,否则将无法产生确定的学习结果
-
奥卡姆剃刀(Occam's razor):若有多个假设与观察一致,则选最简单的那个
-
对于一个学习算法
,若它在某些问题上比学习算法
好,则必然存在另一些问题,在那里
比
好
-
公式略(看不懂
-
没有免费午餐定理(No Free Lunch Theorem, NFL定理):所有学习算法的期望性能都跟随机胡猜差不多
-
NFL定理的重要前提:所有“问题”出现的机会相同,或所有问题同等重要(但实际情形并非如此
-
脱离具体问题,空谈“什么学习算法更好”毫无意义
-
要谈论算法的相对优劣,必须要针对具体的学习问题,学习算法自身的归纳偏好与问题是否相匹配,往往会起到决定性作用
1.5 发展历程
1.6 应用现状
1.7 阅读材料
补充
-
根据训练集求所对应的版本空间的方法:
-
写出假设空间:先列出所有可能的样本点(即特征向量)
-
对应着给出的已知数据集,将与正样本不一致的、与负样本一致的假设删除
-
所剩的假设集合即为版本空间
-