机器学习——基本术语

最新推荐文章于 2022-09-13 18:10:06 发布

菜到怀疑人生

最新推荐文章于 2022-09-13 18:10:06 发布

阅读量336

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/dhaiuda/article/details/79173272

版权

机器学习专栏收录该内容

18 篇文章 5 订阅

订阅专栏

令D={X1，X2，X3.......Xm}，则D表示包含m个示例的数据集，每个示例由d个属性描述，则每个示例Xi=（Xi1；Xi2；....... Xid）是d维空间的一个向量，d维空间的每个坐标轴称为“属性”，属性的取值称为“属性值”，所形成的d维空间称为“属性空间”、“样本空间”、“输入空间”，d称为样本Xi的“维度”。

从数据中学得的模型的过程称为“ 学习”或是“ 训练”，这个过程通过执行某个学习算法来完成，训练过程中用到的数据称为“训练数据”，其中的每一个样本称为一个“ 训练样本”，训练样本组成的集合称为“ 训练集”。

学得模型对应了关于数据的某种潜在规律，称为“ 假设”，这种潜在规律本身，称为“ 真相”或是“ 真实”，机器学习的目的就是为了找出真相或逼近真相。

如果是为了得出一个关于“ 预测”的模型，我们需要获得训练样本的“ 结果”信息。即满足这些属性所对应的结果是什么，例如有气质、漂亮，有思想的女生就是女神，其中的气质、漂亮、思想就是属性，满足这些，对应的结果就是女神，结果被称为是“标记”，拥有了标记信息的示例称为“ 样例”，所有的结果构成“ 标记空间”或是“ 输出空间”。

若我们想要预测的结果是离散值，例如“漂亮的女生”和“不漂亮的女生”，此类学习任务称为是“ 分类”，若欲预测的是连续值，此类学习任务称为“ 回归”，对涉及到两个类别的“ 二分类”任务，通常称其中一个为“ 正类”，另一个为“ 反类”，涉及多多个类别时，则称为“ 多分类”任务，一般情况下，预测任务是希望通过对训练集的联系，建立从输入空间到输出空间的映射，对于二分类任务，通常令输出空间为{0，1}，对多分类任务，输出空间大小大于2，对回归空间，输出空间为实数集。

学得模型后，使用其进行预测的过程称为“ 测试”，被测试的样本称为“ 测试样本”，可以对样本空间做“ 聚类”，即将训练集中的样本进行分组，每组称为一个“ 簇”。在聚类学习中，究竟分组会是什么样我们事先并不清楚，而且学习过程中使用的训练样本通常不拥有标记信息。

监督学习：训练数据具有标记。

无监督学习：训练数据不具有标记。

泛化能力：学得的模型适应新样本的能力。

假设空间：所有的假设组成的空间，假设的表示一旦确定，假设空间及其规模大小就确定了，可以把学习过程看作一个所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集“匹配”的假设，即能得出结果的假设，要注意机器学习并不是单纯的把训练集中的数据记住，而是通过训练集中数据的训练来进行“预测”。

版本空间：可能有多个假设与训练集一致，所有的假设构成版本空间。

归纳偏好

通过学习得到的模型对应了假设空间中的一个假设，但一个训练集可以有多个假设（模型），机器学习过程中对某种类型假设的偏好，就称为归纳偏好。

有没有一般性的原则来引导算法确立正确的偏好呢？“奥卡姆剃刀”是一种原则，即“若有多个假设，则选择最简单的那个”，怎样才算“简单”呢？这需要借助其他机制。

“没有免费的午餐”定理（NFL）：所有学习算法的期望性能是一样的。

那么是否意味着可以随便选择一个学习算法呢？不是

NFL有一个重要前提：所有“问题”出现的机会、或所有问题同等重要，但实际情况并不是这样，很多时候，我们只关心自己试图解决的问题，希望得出一个好的解决方案，至于这个解决方案在别的问题上是否为好方案，我们并不在意。

菜到怀疑人生

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习——基本术语

令D={X1，X2，X3.......Xm}，则D表示包含m个示例的数据集，每个示例由d个属性描述，则每个示例Xi=（Xi1；Xi2；....... Xid）是d维空间的一个向量，d维空间的每个坐标轴称为“属性”，属性的取值称为“属性值”，所形成的d维空间称为“属性空间”、“样本空间”、“输入空间”，d称为样本Xi的“维度”。从数据中学得的模型的过程称为“学习”或是“训练”，这个过程通
复制链接

扫一扫