【机器学习】1.绪论

🚩 西瓜书的学习开始啦!
🚩 机器学习是深度学习的前身与基础,本系列我希望将西瓜书中的相关重点整理成笔记,供读者和未来的自己快速回顾/入门。
🚩 为了节省时间,公式均使用截图。

引言

机器学习

机器学习【周志华】:通过计算的手段,利用经验来修改系统自身的性能。
机器学习【Mitchell,1997】:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

  • 后文用“模型”泛指从数据中学习得到的结果
  • 在计算机系统中,“经验"通常以"数据"形式存在,因此?机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型” (model) 的算法,即"学习算法" (learning algorithm). 有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西瓜),模型会给我们提供相应的判断(例如好瓜)。
  • 根据经验做出预测:色泽青绿、根蒂蜷缩、敲声浊晌,就能判断出是正熟的好瓜

基本术语

数据

数据集:一组记录,每条记录是关于一个事件或者对象的描述

  • 例如:收集了一批关于西瓜的数据的集合,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷), (色泽=浅自;根蒂=硬挺;敲声=清脆),……,每对括号内是一条记录,“=”意思是"取值为"
  • 包含m个实例的数据集:
    在这里插入图片描述

样本:数据集中的一条记录

  • 例如:(色泽=青绿;根蒂=蜷缩;敲声=浊响)

属性(特征):反映事件或对象在某方面的表现或性质的事项

  • 例如:(色泽;根蒂;敲声)

属性值:属性的取值

  • 例如:(青绿;蜷缩;浊响)

属性空间(样本空间)(输入空间):属性张成的空间

  • 例如:例如我们把"色泽" “根蒂” "敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置。
  • 每个d维样本x都在空间中:
    在这里插入图片描述

特征向量:一个样本在空间中对应一个点,每个点对应一个坐标向量。

  • 每个样本由d个属性描述,是d维空间中的一个向量:
    在这里插入图片描述

训练:从数据中学得模型的过程
训练样本:训练过程使用的数据样本
训练集:训练样本组成的集合
样例:拥有了标记信息的示例

在这里插入图片描述

任务

标记空间(输出空间):所有标记的集合
分类:预测的是离散值,这类学习任务称为分类
回归:预测的是连续值,这类学习任务称为分类
正类:二分类中的一类
反类:二分类中的另一类
多分类:设计多个类别时的分类任务

测试:学得模型后,使用其进行预测的过程
测试样本:被预测的样本

聚类:将训练集中的样本按照不同特征分成若干组

监督学习:代表任务有分类和回归
无监督学习:代表任务有聚类

泛化:机器学习的目标是使得模型更好地适用于“新样本”,学得模型适用于新样本的能力称为泛化。

具有强泛化能力的模型能很好地适用于整个样本空间,训练集通常只是样本需间的一个很小的采样,我们希望它能很好地反映出样本空间的特性,这样学得的模型在整个样本空间中都工作得很好。

  • 假设样本空间中的全体样本都服从一个分布:
    在这里插入图片描述
  • 每个样本都是独立地从这个分布上获得的,即独立同分布

一般而言,训练样本越多,我们得到的关于D 的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。

假设空间

  • 归纳演绎是推理的两种方法。前者从特殊到一般的“泛化”;后者从一般到特殊的“泛化”。

  • 狭义的归纳学习要求从训练数据中学得概念,亦被称为“概念学习”。

  • 最基本的概念学习是布尔概念学习,对是与否这样的0/1布尔值的目标概念学习,例如有数据集:在这里插入图片描述

  • 学习目标是判断出“好瓜”

  • 学习过程是在所有假设组成的空间中进行搜索的过程。即能够将训练集中的瓜正确判断的假设。在这里插入图片描述
    可以有许多策略对这个假设空间进行搜索,例如自顶向下、从一般到特殊,或是自底向上、从特殊到一般,搜索过程中可以不断删除与正例不一致的假设、和(或)与反例→致的假设.最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果、

  • 版本空间:实际问题一般有很大的假设空间,但是学习过程是基于有限样本训练集进行的。存在着一个与训练集一致的“假设集合”称为“版本空间”。 我的理解就是:好瓜的解空间(如下图)
    在这里插入图片描述

归纳偏好

奥卡姆剃刀(简单原则)

  • 仅有表1.1的样本,无法断定上述三个假设那个更好,对一个学习算法而言,需要有一个假设选取的偏好。
  • 机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好,简称为偏好。

在这里插入图片描述

  • 如图1.3所示,穿过训练集样本的曲线有很多,但是只有一条最优曲线是正确的

  • 为了找到这条曲线,学习算法需要具备“偏好”能力

  • 奥卡姆剃刀(Occam's razor) 是一种常用的归纳偏好的学习算法:若有多个 假设与观察一致,则选最简单的那个

没有免费的午餐(人无完人)

在这里插入图片描述

  • 如图1.4 所示,没有免费的午餐定理指的是:对于一个学习算法A,在某些问题上比学习算法B更好;则必然存在另一些问题,在那里算法B比A表现地更好。这个结论对任何算法均成立。

下面展示没有免费的午餐定理的证明

  • 算法A:
    在这里插入图片描述

  • 算法B:
    在这里插入图片描述
    在这里插入图片描述

  • 算法 A A A 基于训练数据 X X X 产生假设 h h h 的概率:
    在这里插入图片描述

  • 真实的目标函数:
    在这里插入图片描述

  • 那么A在训练集之外的所有样本上的误差为:
    在这里插入图片描述
    在这里插入图片描述

  • 考虑二分类问题,真实目标函数可以是任何函数:
    在这里插入图片描述

  • 函数空间为:
    在这里插入图片描述

  • 对于所有可能的真实目标函数f按 均匀分布误差求和 ,有:
    在这里插入图片描述
    在这里插入图片描述

  • 式1.2表明:总误差竟然与学习算法无关,对于任意的两个学习算法A和B,都有:
    在这里插入图片描述

  • 无论算法A有多聪明,算法B有多笨拙,两者的期望性能是相同的,这就是 NFL定理 (No Free Lunch Theorem)

事实上,上面NFL 定理的简短论述过程中假设了f 的均匀分布,而实际情形并非如此。NFL 走理最重要的寓意?是让我们清楚地认识到,脱离具体问题,空泛地谈论"什么学习算法更好"毫无意义,要谈论算法的相对优劣,必须要针对具体的学习问题;在
某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意。

发展历程

1950~1970年

  • 人工智能:推力器,机器具备简单的逻辑推理能力。
  • 神经网络的 “连接主义”
  • 基于逻辑的 “符号主义”

1975年+

  • 专家系统
  • 知识工程

1980年+

  • 符号主义:“从样例中学习”,决策树,以信息熵的最小化为目标。
  • 使用一阶逻辑来进行知识表示

1990年+

  • 统计学习:支持向量机 SVM,核方法

2000年+

  • 连接主义:深度学习
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值