西瓜书：第一章（绪论）&第二章（模型评估与选择）

最新推荐文章于 2024-08-11 02:00:50 发布

Wan7777777

最新推荐文章于 2024-08-11 02:00:50 发布

阅读量237

点赞数 1

分类专栏：西瓜书文章标签：机器学习深度学习神经网络

本文链接：https://blog.csdn.net/Wan7777777/article/details/120735774

版权

西瓜书专栏收录该内容

1 篇文章 0 订阅

订阅专栏

【基本术语】

模型/学习器：泛指从数据中学得的结果；其实就是通过观察获得的“经验”，当遇到新事物，有一定的判断依据。
示例/样本：一个事物或对象的描述，例如“一个西瓜”，也就是一条数据
属性/特征：反映事物或对象在某方面的表现或性质的事项，例如一个西瓜的“色泽”、“敲声”
属性值：属性上的取值，例如“青绿”、“乌黑”
属性空间/样本空间/输入空间：我们把属性作为坐标轴，可以构建一个多维空间，每个西瓜都可以找到自己的坐标位置；同时，每一个西瓜对应一个坐标向量，因此，一个示例/样本，也称为特征向量。
学习/训练：从数据中学得模型的过程
训练数据：训练过程中使用的数据
训练样本/训练示例/训练例：训练数据中的每个样本
训练集：训练样本组成的集合
标记(label)：关于示例“结果”的信息，例如一个瓜到底是不是好瓜
标记空间/输出空间：所有标记的集合
样例：拥有标记信息的示例，即拥有明确结果的信息，知道瓜是好瓜还是坏瓜
分类：预测离散值
回归：预测连续值
二分类：一个为正类，另一个为反类
多分类：涉及多个类别的结果
测试：根据模型进行预测的过程
测试样本：被预测的样本
聚类：将训练集中的样本分成若干组，每个组称为一个簇
监督学习(supervised learning)：训练数据有标记信息
无监督学习(unsupervised learning)：训练数据没有标记信息
泛化：模型适用于新样本的能力

【经验误差与过拟合】

训练误差/经验误差：学习器在训练集上的误差
泛化误差：学习器在新样本上的误差
过拟合：学习器把训练样本学得太好了，导致把训练集的一些特点当成所有潜在样本都会有的一般性质，导致泛化性能下降
欠拟合：对训练样本的一般性质

【评估方法】

留出法：直接把数据集D划分成两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T。在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的估计
交叉验证法：将数据集D划分为k个大小相似的互斥子集，每个子集都尽可能保持数据分布的一致性；然后，每次用k-1个子集的并集作为训练集，余下的子集为测试集，获得k组训练/测试集，从而进行k次训练和测试，最终返回这k个测试结果的均值。
自助法：以自助采样法为基础，给定包含m个样本的数据集D，对它进行采样产生数据集D’，每次随机从D中挑选一个样本到D’中（有放回），这个过程执行m次后，得到包含m个样本的数据集D’。

【性能度量】

均方误差：预测值和真实值的误差平方和
错误率：分类错误的样本数占样本总数的比重
精度：分类正确的样本数占样本总数的比重
查准率：预测为正的里面，有多少真的是正的
查全率：真的为正的里，有多少被预测为正
F1：综合考虑查准率、查全率

Wan7777777

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
西瓜书：第一章（绪论）&第二章（模型评估与选择）

【基本术语】模型/学习器：泛指从数据中学得的结果；其实就是通过观察获得的“经验”，当遇到新事物，有一定的判断依据。示例/样本：一个事物或对象的描述，例如“一个西瓜”，也就是一条数据属性/特征：反映事物或对象在某方面的表现或性质的事项，例如一个西瓜的“色泽”、“敲声” 属性值：属性上的取值，例如“青绿”、“乌黑” 属性空间/样本空间/输入空间：我们把属性作为坐标轴，可以构建一个多维空间，每个西瓜都可以找到自己的坐标位置；同时，每一个西瓜对应一个坐标向量，因此
复制链接

扫一扫

专栏目录