【吃瓜训练营】 西瓜书第一章和第二章


西瓜书第一章

1.4-归纳偏好跳过

1.1 引言

  • 将经验数据提供给学习算法,算法就能基于这些数据产生模型。在面对新情况时,模型会给我们提供相应的判断。
  • 模型泛指从数据中学得的结果

1.2基本术语

  • 数据集:一组记录的集合
  • 示例或样本:每一条记录是关于一个事件或对象的描述
  • 一个示例也称为一个特征向量
  • 属性或特征:反映事件或对象在某方面的表现或性质的事项 例如:色泽、根蒂、敲声
  • 属性值:属性上的取值,例如:青绿、乌黑
  • 属性空间或样本空间海螺输入空间:属性张成的空间

数据集的符号表示数据集的表示方法

  • 学习或训练:从数据中学得模型的过程。这个过程通过执行某个学习算法来完成
  • 训练数据:训练过程中使用的数据。其中每个样本称为一个训练样本。训练样本组成的集合称为训练集
  • 假设:学得模型对应了关于数据的某种潜在的规律。这种潜在规律自身,则称为真相或真实
  • 标记:关于示例结果的信息,例如:好瓜
  • 样例:拥有了标记信息的示例

样例和标记的符号表示样例和标记

  • 分类:预测离散值
    只涉及两个类别的为“二分类”,一个类为“正类”,另一个为“反类”。
    涉及多个类别时,则称为“多分类”
  • 回归:预测连续值

分类任务中输出空间y的取值这里是引用

  • 测试:学的模型后,使用其进行预测的过程
  • 测试样本:被预测的样本
  • 聚类:将训练集中的西瓜分成若干组,每组称为一个“簇”。学习过程中使用的训练样本通常不拥有标记信息。
  • 监督学习:训练数据拥有标记信息。包括:分类和回归
  • 无监督学习:训练数据没有标记信息。包括:聚类
  • 泛化能力:学得模型适用于新样本的能力。拥有强泛化能力的模型能很好地适用于整个样本空间
  • 独立同分布:假设样本空间中全体样本服从一个未知的分布D,获得每个样本都是独立地从这个分布上采样获得的。

1.3 假设空间

归纳

  • 归纳:从特殊到一般的泛化过程。从具体的事实归结出一般性规律
  • 广义:从样例中学习
  • 狭义:从训练数据中学得概念,亦称为“概念学习”或“概念形成”。研究和应用都较少
    概念学习中最基本的是布尔概念学习
  • 学习过程是基于有限样本训练集进行的
  • 版本空间:一个与训练集一致的“假设集合”

演绎

  • 演绎:从一般到特殊的特化过程。从基础原理推演出具体状况

1.4 归纳偏好(简略看的)

  • 归纳偏好:机器学习在学习过程中对某种类型假设的偏好。简称“偏好”
    任何一个有效的机器学习算法必有其归纳偏好。

  • 奥卡姆剃刀:若有多个假设与观察一致,则选最简单的那个

  • 算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能够取得好的性能

  • 没有免费的午餐(最优化方法中曾讲过)

1.5 发展历程(此部分后面的章节会再详细学)

  • 符号主义学习:包括决策树和基于逻辑的学习

  • 决策树学习:以信息论为基础,以信息熵的最小化为目标,直接模拟了人类对概念进行判定的树形流程

  • 基于逻辑的学习:归纳逻辑程序设计(ILP),可以看作机器学习与逻辑程序设计的交叉,使用一阶逻辑来进行知识表示,通过修改和扩充逻辑表达式来完成对数据的归纳。
    ILP可以利用领域知识辅助学习,还可以通过学习对领域知识进行精化和增强。
    但其表示能力太强,直接导致学习过程中面临的假设空间太大、复杂度极高,因此,问题规模稍大就难以有效进行学习。

  • 连接主义学习:产生“黑箱”模型。包括BP算法
    最大局限是其“试错性”:其学习过程涉及大量参数,而参数的设置缺乏理论指导,主要靠手工“调参”
    参数调节上失之毫厘,学习结果可能谬以千里

  • 统计学习:支持向量机(SVM)或“核方法”(kernel method)

  • 深度学习:狭义:“很多层”的神经网络
    只要下工夫“调参”,把参数调节好,性能往往就好。缺乏严格的理论基础

1.6 应用现状 1.7 阅读材料

  • 这两章没有太多的概念
  • 多释原则:主张保留与经验观察一致的所有假设

第二章 模型评估与选择

2.3.3及其以后的够可以跳过

2.1 经验误差与过拟合

  • 错误率:分类错误的样本数占样本总数的比例
  • 精度=1-错误率
  • 误差:学习器的实际预测输出与样本的实际输出之间的差异
    训练误差(经验误差):学习器在训练集上的误差
    泛化误差:在新样本上的误差
    误差均指误差期望
  • 过拟合:把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,导致泛化性能下降
  • 欠拟合:对训练样本的一般性质尚未学好
  • NP的英文全称是Non-deterministic Polynomial的问题,即多项式复杂程度的非确定性问题。

2.2 评估方法

  • 测试集:测试学习器对新样本的判别能力
    以测试节上的测试误差作为泛化误差的近似
    测试集应尽可能与训练集互斥
    测试样本相当于给同学们练习的习题,测试过程相当于考试

对数据集D进行适当的处理,从中产生出训练集S和测试集T的方法

2.2.1 留出法

  • 直接将数据集D划分为两个互斥的集合,一个为S,一个为T
  • 单次使用留出法得到的估计结果往往不够稳定可靠,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果
  • 常见做法:大约2/3~4/5的样本用于训练,剩余样本用于测试

2.2.2 交叉验证法(k折交叉验证)

  • 先将数据集D划分为k个大小相似的互斥子集。每个子集都尽可能保持数据分布的一致性,从D中通过分层采样得到
  • 用k-1个子集的并集作为训练集,剩余的那个子集作为测试集
  • 获得k组训练集,可以进行k次训练和测试
  • 最常用的k=10(或5、20)

10折交叉验证示意图这里是引用

  • k折交叉验证通常要随机使用不同的划分重复p次,最终评估的结果是这p次k折交叉验证结果的均值。
  • 留一法:m个样本,k=m,划分为m个子集,每个子集包含一个样本。结果比较准确,但计算复杂度太大

2.2.3 自助法(包外估计)

这里是引用
D’作为训练集,D/D’作为测试集
多用于数据集较小、难以有效划分训练、测试集时很有用
改变了初始数据集的分布,会引入估计误差,在数据量足够时,留出法和交叉验证法更常用

2.2.4 调参与最终模型

  • 验证集:模型评估与选择中用于评估测试的数据集。基于验证集上的性能来进行选择和调参
  • 训练集分为训练集和验证集。
  • 训练集是老师教的东西,验证集是上课的小测验,测试集是考试

2.3 性能度量

衡量模型泛化能力的评价标准
反映了任务需求

2.3.1 错误率与精度

前面已经写过概念了,此处省略。。。

补充

指示函数

错误率公式中有使用指示函数在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值