机器学习-学习笔记（一）第一章基本概念

最新推荐文章于 2022-03-25 15:25:32 发布

Avlon

最新推荐文章于 2022-03-25 15:25:32 发布

阅读量359

点赞数

分类专栏：机器学习文章标签： b j

本文链接：https://blog.csdn.net/Avlon/article/details/81010300

版权

机器学习专栏收录该内容

16 篇文章 3 订阅

订阅专栏

看完了西瓜书的第一章，做一个简单的笔记。

一、基本概念

属性（attribute）/特征（feature）-反映事件或对象在某方面的表现或性质的事项，属性张成的空间称为“属性空间”（attribute space）/“样本空间”（sample space）。

示例（instance）/样本（sample）-关于一个事件或对象的描述，每个示例由d个属性描述可表示为是d维样本空间Y中的一个向量，，d称为样本的维数（dimensionality），可以将一个示例称为一个特征向量。

数据集（data set）-样本组成的集合，表示包含m个示例的数据集。

训练集（training set）-训练/学习过程中使用的数据的集合，其中每个样本称为一个训练样本（training sample）。

假设（hypothesis）与真实（ground-truth）-学得模型对应了关于数据的某种潜在规律，这种潜在规律自身成为真实/真相，设X为样本空间，x为样本，y为样本的标记，则f(x)表示希望模型学得的真实，则h(x)表示一种假设。

样例（example）-拥有了标记（label）信息的示例，标记是关于示例结果的信息，一般用表示第i个样例，其中，Y是所有标记的集合称为标记空间（label space）/输出空间。

分类（classification）/回归（regression）-预测的是离散值的学习任务称为分类，预测连续值的学习任务称为回归，只涉及两个类别称为二分类（binary classification），通常称其中一个为正类（positive class）一个为反类（nagative class），涉及多个类别称为多分类（multi-class classification）。

聚类（clustering）-将训练集中的样本分成若干组，每组称为一个“簇”（cluster），这些自动形成的簇可能对应一些潜在概念划分。

根据训练数据是否拥有标记信息，学习任务可大致划分为两大类：“监督学习”（supervised learning）和“无监督学习”（unsupervised learning），分类和回归是前者的代表，而聚类则是后者的代表。

泛化（generalization）能力-学得模型适用于新样本的能力。

假设空间（hypothesis space）-所有假设组成的空间，对于样本空间X，所有可能的h(x)组成的空间就是假设空间，学习过程可以看作是在假设空间内的搜索，搜索过程中不断的删除与正例不一致的假设和反例一致的假设。

版本空间（version space）-与训练集一致的假设集合，即版本空间内所有假设在训练集上的输出一致。

归纳偏好（inductive bias）-学习算法在学习过程中对某种类型假设的偏好，小概念（奥卡姆剃刀）。

NFL定理证明过程中对指示函数的求和用到了二项式定理的结论。

二、习题

1.1 模拟搜索过程，从正例的特例开始泛化，删除与反例相同的假设即可得到版本空间，大小为7。

1.2 不考虑冗余时是所有假设的组合数，考虑冗余则较难。

1.3 在匹配属性尽可能多的情况下选择匹配样本多的假设。

1.4 对评估函数的求和为常数，看到这一点证明便简单了。

1.5 输入分类、搜索匹配、结果分类、图片搜索等环节。

Avlon

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习-学习笔记（一）第一章基本概念

看完了西瓜书的第一章，做一个简单的笔记。一、基本概念属性（attribute）/特征（feature）-反映事件或对象在某方面的表现或性质的事项，属性张成的空间称为“属性空间”（attribute space）/“样本空间”（sample space）。示例（instance）/样本（sample）-关于一个事件或对象的描述，每个示例由d个属性描述可表示为是d维样本空间Y中的一个向量，，...
复制链接

扫一扫