花书第五章机器学习基础

1.学习算法

    对于某类任务 T 和性能度量P,一个计算机程序被认为可以从经验 E 中学习是指,通过经验 E 改进后,它在任务 T 上由性能度量 P 衡量的性能有所提升。

  1.  常见学习任务        

    1.    任务:机器学习系统如何处理样本(样本是从要处理的对象中收集到的已经量化的特征的集合)
    2. 输入缺失分类:当输入向量的每个度量不被保证的时候,学习算法只需要定义一个从输入向量映射到输出类别的函数
    3. 回归:对输入给输出
    4. 转录:观测一些相对非结构化表示的数据,并转录信息为离散的文本形式。
    5. 结构化输出:输出向量或者其他包含多个值的数据结构,并且构成输出的这些不同元素间具有重要关系
    6. 去噪:算法根据损坏后的样本预测损坏前的样本
    7. 密度估计或概率质量函数估计:学习观测到的数据的结构后解释成样本采样空间的概率密度函数(如果 x 是连续的)或者概率质量函数(如果 x 是离散的)
  2. 性能度量P:评估学习算法的能力

    1. 对于诸如分类、缺失输入分类和转录任务,我们通常度量模型的准确率
    2. 要找准应该度量什么
  3. 经验 E

    1. 无监督算法:训练含有很多特征的数据集,然后学习出这个数据集上有用的结构性质。
    2. 监督学习算法:训练含有很多特征的数据集,不过数据集中的样本都有一个标签或目标。
    3. 监督学习包含观察随机向量 x 及其相关联的值或向量 y,然后从 x 预测 y,通常是估计 p(y | x)。
    4. 将回归、分类或者结构化输出问题称为监督学习。支持其他任务的密度估计通常被称为无监督学习。
    5. 表示数据集的常用方法是设计矩阵。设计矩阵的每一行包含一个不同的样本。每一列对应不同的特征。
  4. 示例:线性回归
    1. 令 ˆy 表示模型预测 y 应该取的值。我们定义输出为ˆy = w⊤x,w是系数也是权重值,x是特征
    2. 度量模型性能是计算在测试集上的均方误差,即回归目标向量和在测试集上的预测值相同时,误差为0

2.容量、过拟合和欠拟合

  1. 常用知识

    1. 训练集和测试集的数据生成过程是基于每个样本彼此独立且训练集和测试集同分布的,两者的误差期望是相同的
    2. 欠拟合:指模型不能在训练集上获得足够低的误差。
    3. 过拟合:指训练误差和和测试误差之间的差距太大。
    4. 通过调整系统拟合各函数的能力来控制欠拟合或者过拟合(通过改变输入特征的数目和加入这些特征对应的参数);虽然更简单的函数更容易泛化,但其训练误差会大
    5. 贝叶斯误差:指在现有特征集上,任意可以基于特征输入进行随机输出的分类器所能达到最小误差,也可以叫做最小误差。
    6. 非参数模型:最近邻回归(解决办法:多收集样本)
  2. 没有免费午餐定理

    1. 必须在特定任务上设计性能良好的机器学习算法,这需要我们对遇到的概率分布进行假设
  3. 正则化

    1. 正则化:指我们修改学习算法,使其降低泛化误差而非训练误差。
    2. 范数扮演正则项,得到稀疏解,解决过拟合问题

3.超参数和验证集

  1. 超参数:模型外部设置的变量,其不会改变,作用是定义模型属性或者训练过程的参数;有时会将难优化或者不适合在训练集上学习的选项设为超参数。通常训练集中80%训练参数,20%挑选超参数。
  2. 在小规模的测试集中,我们可采用交叉验证,比如k-折交叉验证来验证性能度量P

4.估计、偏差和方差

  1. 偏差定义:bias(ˆθm) = E(ˆθm) − θ
  2. 无偏:如果 bias(ˆθm) = 0,那么估计量 ˆθm被称为是无偏
  3. 渐进无偏:如果 limm→∞bias(ˆθm) = 0,那么估计量 ˆθm被称为是渐近无偏,这意味着 limm→∞E(ˆθm) = θ。
  4. 当我们使用有限的样本计算任何统计量时,真实参数的估计都是不确定的,在这个意义下,从相同的分布得到其他样本时,它们的统计量也会不一样。任何方差估计量的期望程度是我们想量化的误差的来源
  5. 偏差度量着偏离真实函数或参数的误差期望。而方差度量着数据上任意特定采样可能导致的估计期望的偏差。
  6. plimm→∞ˆθm= θ.表示的条件是一致性,一致性保证了估计量的偏差会随数据样本数目的增多而减少。

5.贝叶斯统计

  1. 是先验的,对真是参数是表示成已知的
  2. 当训练数据很有限时,贝叶斯方法通常泛化得更好;在数据很大时,成本就很高
  3. MAP 贝叶斯推断的优势是能够利用来自先验的信息,这些信息无法从训练数据中获得。该附加信息有助于减少最大后验点估计的方差,这个优点的代价是增加了偏差。MAP 贝叶斯推断提供了一个直观的方法来设计复杂但可解释的正则化项。

6.监督学习

  1. p(y | x; θ),可以通过最大似然估计来找到参数向量θ   详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
  2. 支持向量机只输出类别,不输出概率。其创新点为核技巧。【机器学习】支持向量机 SVM(非常详细) - 阿泽的文章 - 知乎
    1. 引入核函数的目的:
      1. 是为了避免低维空间映射到高维空间所需要的内积,避免算点积
      2. 保证有效收敛的凸优化技术来学习非线性模型
    2. 核机器的一个主要缺点是计算决策函数的成本关于训练样本的数目是线性的。
  3. 最近邻回归是没有参数的,而是使用训练数据的简单函数。
    1. 在测试阶段我们希望在新的测试输入 x 上产生 y,我们需要在训练数据 X 上找到 x 的k-最近邻。然后我们返回训练集上对应的 y 值的平均值。
    2. k-近邻能达到非常高的容量
    3. k-最近邻的一个弱点是它不能学习出哪一个特征比其他更具识别力
  4. 决策树及其变种是另一类将输入空间分成不同的区域,每个区域有独立参数的算法;决策树的每个节点都与输入空间的一个区域相关联,并且内部节点继续将区域分成子节点下的子区域

7.无监督学习算法

  1. 介绍

    1. 无监督学习常用于数据挖掘,用于在大量数据中发现什么
    2. 一个经典的无监督学习任务是找到数据的 ‘‘最佳’’ 表示。‘‘最佳’’ 可以是不同的表示,但是一般来说,是指该表示在比本身表示的信息更简单或更易访问而受到一些惩罚或限制的情况下,尽可能地保存关于 x 更多的信息。(定义简单的三种表示)
      1. 低维表示:尝试将 x 中的信息尽可能压缩在一个较小的表示中。
      2. 稀疏表示:将数据集嵌入到输入项大多数为零的表示中 
      3. 独立表示:试图分开数据分布中变化的来源,使得表示的维度是统计独立的。
  2. 主成分分析

    1. 目的:可视化,压缩数据(降维),以及寻找信息量更大的数据表示以用于进一步的处理。
    2. 目的:对于原先数据集的所有特征进行处理。删去多余的重复的特征,建立尽可能少的特征,使得这些新特征两两不相关。并且这些新特征在反映数据集的信息方面尽可能保持原有信息。
  3. k-均值聚类

    1. 聚类方法先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,各个类之间的数据相似度差别尽可能的大。
    2. 步骤:
      1. S1:初始化K个聚类中心
      2. 每个训练样本分配到最近的中心点 µ(i)所代表的聚类 i。
      3. 每一个中心点 µ(i)更新为聚类 i 中所有训练样本 x(j)的均值。

8.随机梯度下降

  1. 当训练集数据很大时,可以均匀的抽出一部分数据用来训练
  2. 当 训练集趋向于无穷大时,该模型最终会在随机梯度下降抽样完训练集上的所有样本之前收敛到可能的最优测试误差。继续增加训练集不会延长达到模型可能的最优测试误差的时间。

9.构建机器学习算法

  1. 大部分的深度学习算法都可以被描述为特定的数据集、代价函数、优化过程和模型。
  2. 通常代价函数至少含有一项使学习过程进行统计估计的成分。最常见的代价函数是负对数似然,最小化代价函数导致的最大似然估计。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值