Task01—概览西瓜书第一、二章节

最新推荐文章于 2022-01-10 19:47:52 发布

star-gazer

最新推荐文章于 2022-01-10 19:47:52 发布

阅读量77

点赞数

分类专栏：机器学习入门——吃西瓜文章标签：机器学习

本文链接：https://blog.csdn.net/m0_43393525/article/details/118716231

版权

机器学习入门——吃西瓜专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第一章绪论

知识点概述

机器学习是研究“学习算法”的学问。学习算法从数据中获得经验，基于这些经验产生模型，模型泛指从数据中学得的结果。
机器学习的形式化定义：假设用P;来评估计算机程序在某任务类T上的性能，若某一个程序通过利用经验E在T任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。
数据集→示例或样本或特征向量(对应在属性空间里的取值)→属性或特征→属性值；属性张成的空间称为属性空间或样本空间或输入空间：即每个属性代表了该空间的一个坐标轴,属性的个数就是样本的维数。
模型亦可以称为“学习器”，可看作学习算法在给定数据和参数空间上的实例化。
常常根据标签是离散的还是连续的，我们可以把学习任务分为：“分类”(classification)任务，“回归”(regression)任务。当然除此之外还有其他学习任务，例如不给出标签的学习任务，比如聚类和降维。所以学习任务可大致分为两大类：“监督学习”(supervised learning)和**“无监督学习”**(unsupervised learning)。分类和回归是前者的代表，而聚类则是后者的代表。
学习任务的本质就是建立起从输入空间到输出空间的映射。
学得的模型适用于新样本的能力，称为“泛化”能力。假设样本空间全体样本服从某个未知分布D，且从样本空间中独立地抽样得到样本是独立同分布的训练集，我们期望训练得到的模型在着整个样本空间上都工作的很好，那么就希望从整个样本空间抽样得到的训练集越大越好（此处训练集数据的分布会越来越靠近样本空间的分布即真实分布），这样能够的得到更多的关于分布D的信息。
奥卡姆剃刀：当存在多个模型与训练集一致的时候，我们不得不进行归纳偏好，而归纳偏好的一般指导性原则就是奥卡姆剃刀。即“若是多个假设与观测一致，则选择最简单的那个”，通常模型的简单或是复杂可以直观的从数学式或者参数数量看出。但是这个原则并不是一个一定正确和可行的。因为在具体的问题中，归纳偏好往往需要和问题本身相匹配，也即问题本身才是决定归纳偏好选择的最直接因素，它直接影响这算法能否取得好的性能。
NFL定理：“没有免费的午餐”定理，若是所有“问题”出现的机会相同、或所有问题同等重要则所有学习算法的期望性能是相同的。NFL定理最重要的寓意，是让我们清楚地认识到，脱离具体问题，空泛地谈论“什么学习算法更好”毫无意义。这也印证了问题本身才是决定归纳偏好选择的最直接因素，它直接影响这算法能否取得好的性能。

第二章模型评估与选择

知识点概述

误差：学习器的实际预测输出与样本的真实输出之间的差异。而误差又分为训练误差（经验误差）和泛化误差，我们在训练过程中以降低训练误差为目标这样会导致过拟合的发生，显然训练误差不能作为衡量模型的性能的标准，所以我们还需要求得泛化误差来衡量模型的性能。
过拟合和欠拟合：在训练集表现的很好，但在测试集上泛化误差却很大的情况叫做过拟合。在训练集、测试集上表现的都很差的是欠拟合。目前欠拟合很好处理，但是过拟合才是目前面临的关键障碍，我们无法完全消除过拟合，只能尽可能缓解。
评估方法：即评估模型性能的方法，就只考虑泛化误差这一指标而言，以何种方式求得泛化误差就是评估的不同方法。但不同的评估方法都是需要将数据集划分成两个部分，即训练集和测试集，而泛化误差是从测试集上得来。
留出法：最简单的按比例分割数据集的方法，一般是7比3的比例分割数据集，但其实在按比例分割数据集时根据每次随机抽取为训练集和测试集的可能性又多种，所以可以取每次测试结果的平均来作为最终结果。（需要注意的是尽可能使测试集和训练集的数据分布一致，以分层抽样的方式获得数据集，即使测试集和训练集之间各个类别所占比重一致）。
交叉验证法：将数据集以分层抽样的方式分成K份，其中每份都轮流作为测试集其它的为训练集，进行k次训练和测试，最终返回的是这个k个测试结果的平均值。和留出法相似的是，可以多次随机抽样分成K份，称为多少次k折交叉验证。当交叉验证法将一个样本化为一份，就变成了留一法，留一法不受随机划分的影响，并且训练的模型几乎用到了整个数据集，在固定参数下得到的模型也被认为更加接近预期，评估结果也更准确，但是缺点也很明显，当样本数量很大的时候，计算开销难以接受。
自助法：部分解决了留一法的困境（获得和原始数据集一样大小的训练集，并且计算开销不会过大），通过在原始数据集里随机采样获得和原始数据集一样大小的训练集，而测试集选择那些没在训练集出现的样本，但随之而来的问题就是这种采样方式不是像留出法和交叉验证法那样保证了训练集和测试集和原来数据集是一样的数据分布，所以这会引起估计偏差。因此，在初始数据量足够的时候，留出法和交叉验证法更常用一些。

star-gazer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Task01—概览西瓜书第一、二章节

第一章绪论知识点概述机器学习是研究“学习算法”的学问。学习算法从数据中获得经验，基于这些经验产生模型，模型泛指从数据中学得的结果。机器学习的形式化定义：假设用P;来评估计算机程序在某任务类T上的性能，若某一个程序通过利用经验E在T任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。数据集→示例或样本或特征向量(对应在属性空间里的取值)→属性或特征→属性值；属性张成的空间称为属性空间或样本空间或输入空间：即每个属性代表了该空间的一个坐标轴,属性的个数就是样本的维数。模型亦可以称为“
复制链接

扫一扫