🚩 西瓜书的学习开始啦!
🚩 机器学习是深度学习的前身与基础,本系列我希望将西瓜书中的相关重点整理成笔记,供读者和未来的自己快速回顾/入门。
🚩 为了节省时间,公式均使用截图。
引言
机器学习
机器学习【周志华】
:通过计算的手段,利用经验来修改系统自身的性能。
机器学习【Mitchell,1997】
:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
- 后文用“模型”泛指从数据中学习得到的结果
- 在计算机系统中,“经验"通常以"数据"形式存在,因此?机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型” (model) 的算法,即"学习算法" (learning algorithm). 有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西瓜),模型会给我们提供相应的判断(例如好瓜)。
- 根据经验做出预测:色泽青绿、根蒂蜷缩、敲声浊晌,就能判断出是正熟的好瓜
基本术语
数据
数据集
:一组记录,每条记录是关于一个事件或者对象的描述
- 例如:收集了一批关于西瓜的数据的集合,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷), (色泽=浅自;根蒂=硬挺;敲声=清脆),……,每对括号内是一条记录,“=”意思是"取值为"
- 包含m个实例的数据集:
样本
:数据集中的一条记录
- 例如:(色泽=青绿;根蒂=蜷缩;敲声=浊响)
属性(特征)
:反映事件或对象在某方面的表现或性质的事项
- 例如:(色泽;根蒂;敲声)
属性值
:属性的取值
- 例如:(青绿;蜷缩;浊响)
属性空间(样本空间)(输入空间)
:属性张成的空间
- 例如:例如我们把"色泽" “根蒂” "敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置。
- 每个d维样本x都在空间中:
特征向量
:一个样本在空间中对应一个点,每个点对应一个坐标向量。
- 每个样本由d个属性描述,是d维空间中的一个向量:
训练
:从数据中学得模型的过程
训练样本
:训练过程使用的数据样本
训练集
:训练样本组成的集合
样例
:拥有了标记信息的示例
任务
标记空间(输出空间)
:所有标记的集合
分类
:预测的是离散值,这类学习任务称为分类
回归
:预测的是连续值,这类学习任务称为分类
正类
:二分类中的一类
反类
:二分类中的另一类
多分类
:设计多个类别时的分类任务
测试
:学得模型后,使用其进行预测的过程
测试样本
:被预测的样本
聚类
:将训练集中的样本按照不同特征分成若干组
监督学习
:代表任务有分类和回归
无监督学习
:代表任务有聚类
泛化
:机器学习的目标是使得模型更好地适用于“新样本”,学得模型适用于新样本的能力称为泛化。
具有强泛化能力的模型能很好地适用于整个样本空间,训练集通常只是样本需间的一个很小的采样,我们希望它能很好地反映出样本空间的特性,这样学得的模型在整个样本空间中都工作得很好。
- 假设样本空间中的全体样本都服从一个分布:
- 每个样本都是独立地从这个分布上获得的,即
独立同分布
一般而言,训练样本越多,我们得到的关于D 的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。
假设空间
-
归纳
和演绎
是推理的两种方法。前者从特殊到一般的“泛化”;后者从一般到特殊的“泛化”。 -
狭义的归纳学习要求从训练数据中学得
概念
,亦被称为“概念学习”。 -
最基本的概念学习是
布尔概念学习
,对是与否这样的0/1布尔值的目标概念学习,例如有数据集: -
学习目标是判断出“好瓜”
-
学习过程是在所有假设组成的空间中进行搜索的过程。即能够将训练集中的瓜正确判断的假设。
可以有许多策略对这个假设空间进行搜索,例如自顶向下、从一般到特殊,或是自底向上、从特殊到一般,搜索过程中可以不断删除与正例不一致的假设、和(或)与反例→致的假设.最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果、 -
版本空间
:实际问题一般有很大的假设空间,但是学习过程是基于有限样本训练集进行的。存在着一个与训练集一致的“假设集合”称为“版本空间”。 我的理解就是:好瓜的解空间(如下图)
归纳偏好
奥卡姆剃刀(简单原则)
- 仅有表1.1的样本,无法断定上述三个假设那个更好,对一个学习算法而言,需要有一个假设选取的偏好。
- 机器学习算法在学习过程中对某种类型假设的偏好,称为
归纳偏好
,简称为偏好。
-
如图1.3所示,穿过训练集样本的曲线有很多,但是只有一条最优曲线是正确的
-
为了找到这条曲线,学习算法需要具备“偏好”能力
-
奥卡姆剃刀(Occam's razor)
是一种常用的归纳偏好的学习算法:若有多个 假设与观察一致,则选最简单的那个。
没有免费的午餐(人无完人)
- 如图1.4 所示,
没有免费的午餐定理
指的是:对于一个学习算法A,在某些问题上比学习算法B更好;则必然存在另一些问题,在那里算法B比A表现地更好。这个结论对任何算法均成立。
下面展示没有免费的午餐定理的证明
-
算法A:
-
算法B:
-
算法 A A A 基于训练数据 X X X 产生假设 h h h 的概率:
-
真实的目标函数:
-
那么A在训练集之外的所有样本上的误差为:
-
考虑二分类问题,真实目标函数可以是任何函数:
-
函数空间为:
-
对于所有可能的真实目标函数f按 均匀分布 对 误差求和 ,有:
-
式1.2表明:总误差竟然与学习算法无关,对于任意的两个学习算法A和B,都有:
-
无论算法A有多聪明,算法B有多笨拙,两者的期望性能是相同的,这就是
NFL定理
(No Free Lunch Theorem)
事实上,上面NFL 定理的简短论述过程中假设了f 的均匀分布,而实际情形并非如此。NFL 走理最重要的寓意?是让我们清楚地认识到,脱离具体问题,空泛地谈论"什么学习算法更好"毫无意义,要谈论算法的相对优劣,必须要针对具体的学习问题;在
某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意。
发展历程
1950~1970年
- 人工智能:推力器,机器具备简单的逻辑推理能力。
- 神经网络的 “连接主义”
- 基于逻辑的 “符号主义”
1975年+
- 专家系统
- 知识工程
1980年+
- 符号主义:“从样例中学习”,决策树,以信息熵的最小化为目标。
- 使用一阶逻辑来进行知识表示
1990年+
- 统计学习:支持向量机 SVM,核方法
2000年+
- 连接主义:深度学习