《机器学习实战》学习笔记（七）

书生丶丶

于 2022-08-14 01:07:35 发布

阅读量854

点赞数

文章标签：机器学习学习人工智能

本文链接：https://blog.csdn.net/qq_35021992/article/details/126244306

版权

文章目录

简介
分类算法

简介

这次是对之前学习的分类算法的一次总结。对照《机器学习——周志华》这本书。

分类算法

根据训练数据是否拥有标记信息，学习任务可大致划分为两大类“监督学习” (supervised learning) 和“无监督学习” (unsupervised learning) ，分类和回归是前者的代表，而聚类则是后者的代表.

我们现在学习过的分类算法是监督学习类。

机器学习的目标是使学得的模型能很好地适用于"新样本"，而不是仅仅在训练样本上工作得很好;即便对聚类这样的无监督学习任务，我们也希望学得的簇划分能适用于没在训练集中出现的样本。学得模型适用于新样本的能力，称为“泛化” (generalization)能力。、

《机器学习实战》的第七章的元算法，组合了我们学过的分类算法，实现了利用弱分类器构建强分类器。达到的效果就是增强了模型适用于新样本的能力，提高了泛化能力

通常假设样本空间中全体样本服从一个未知"分布" (distribution) D ，我们获得的每个样本都是独立地从这个分布上采样获得的，即"独立同分布" (independent and identically distributed，简称 i.i.d.)。一般而言，训练样本越多，我们得到的关于 D 的信息越多，这样就越有可能通过学习获得具有强泛化能力的模型。

NFL定理

无论学习算法A多聪明、学习算法B多笨拙，它们的期望性能相同。这就是“没有免费的午餐”(No Free Lunch Theorem，简称 NFL）定理。

NFL 定理有一个重要前提:所有"问题"出现的机会相同、或所有问题同等重要.

NFL 定理最重要的寓意是让我们清楚地认识到，脱离具体问题，空泛地谈论"什么学习算法更好"毫无意义，因为若考虑所有潜在的问题，则所有学习算法都一样好。要谈论算法的相对优劣，必须要针对具体的学习问题;在某些问题上表现好的学习算法，在另一些问题上却可能不尽如人意，学习算法自身的归纳偏好与问题是否相配，往往会起到决定性的作用。

错误率与精度

分类错误的样本数占样本总数的比例称为"错误率"，在m个样本中有 a个样本分类错误，则错误率 $E = a / m$ 相应的1- a/m 称为"精度"

泛化误差与训练误差

学习器的实际预测输出与样本的真实输出之间的差异称为“误差” (error),学习器在训练集上的误差称为“训练误差” (training error)或“经验误差” (empirical error)，在新样本上的误差称“泛化误差” (generalizationerror)。

我们希望得到泛化误差小的学习器。然而，我们事先并不知道新样本是什么样，实际能做的是努力使经验误差最小化.

过拟合与欠拟合

当学习器把训练样本学得"太好"了的时候，很可能巳经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降。这种现象在机器学习中称为“过拟合” (overfitting)。与"过拟合"相对的是“欠拟合” (underfitting) ，这是指对训练样本的一般性质尚未学好。

下图为过拟合与欠拟合的类比图：
在这里插入图片描述

欠拟合比较容易克服，例如在决策树学习中扩展分支、在神经网络学习中增加训练轮数等，过拟合是无法彻底避免的，我们所能做的只是"缓解’，或者说减小其风险。

五种分类算法比较