【学习笔记】【机器学习】第1章——绪论

最新推荐文章于 2023-08-31 15:06:42 发布

Tuenity

最新推荐文章于 2023-08-31 15:06:42 发布

阅读量339

点赞数

分类专栏： # 机器学习

本文链接：https://blog.csdn.net/qq_43733499/article/details/107099570

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

第1章 1

1.1 引言 1

本书用模型泛指从数据中学得的结果。

1.2 基本术语 2

数据集：记录的集合
样本（示例）：每条记录是关于一个事件或对象的描述
特征（属性）：反映事件或对象在某方面的表现或性质的事项
属性值：属性的取值
属性空间（样本空间）：属性张成的空间
特征向量：示例
维数：属性描述的个数
学习（训练）：从数据中学得模型
训练数据、训练样本、训练集：训练过程中使用的数据、其中每个样本、训练样本组成的集合
假设：学得模型对应了关于数据的某种潜在的规律
泛化能力：学得模型适用于新样本的能力

基本术语有很多，在学完后做几个项目会对这些术语有更全面的认识。

1.3 假设空间 4

西瓜数据集：
在这里插入图片描述
假设空间：所有假设组成的集合

若“色泽”“根蒂”“敲声”分别有3、3、3中可能取值，假设空间规模大小为65：
$\begin{aligned} (3+1)\times(3+1)\times(3+1)+1=65 \end{aligned}$

3+1的3为三个属性，1为全部属性（*），后面+1的1为空集。

版本空间：只保留了假设空间中与训练数据集中正例一致的假设，由这些正确的假设构成的集合称为版本空间
在这里插入图片描述
通过所给的西瓜数据集对假设空间进行筛选，就可以得到版本空间。

简单说，假设空间就是所有可能的情况，学习过程中通过训练集对其进行筛选得到版本空间。因此，要想判断的正确，就要全面、大量的训练，以排除更多假设空间中的错误假设。错误假设越少，剩下的假设越少，就越有可能是正确假设，我们判断的结果的正确概率越大。

如果还没有理解，可以参考以下的博客，有更加详细的例子：

如何理解假设空间与版本空间？

1.4 归纳偏好 6

归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好
训练集外误差：（公式1.1）
$E_{o t e}\left(\mathfrak{L}_{a} | X, f\right)=\sum_{h} \sum_{\boldsymbol{x} \in \mathcal{X}-X} P(\boldsymbol{x}) \mathbb{I}(h(\boldsymbol{x}) \neq f(\boldsymbol{x})) P\left(h | X, \mathfrak{L}_{a}\right)$

其中 $\mathbb{I}(·)$ 是指示函数，若·为真取值1，否则取值0.
对所有可能的f按均匀分布对误差求和，有（公式1.2）
$\begin{aligned} \sum_{f}E_{ote}(\mathfrak{L}_a\vert X,f) &= \sum_f\sum_h\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x})\mathbb{I}(h(\boldsymbol{x})\neq f(\boldsymbol{x}))P(h\vert X,\mathfrak{L}_a) \\ &=\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x}) \sum_hP(h\vert X,\mathfrak{L}_a)\sum_f\mathbb{I}(h(\boldsymbol{x})\neq f(\boldsymbol{x})) \\ &=\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x}) \sum_hP(h\vert X,\mathfrak{L}_a)\cfrac{1}{2}2^{\vert \mathcal{X} \vert} \\ &=\cfrac{1}{2}2^{\vert \mathcal{X} \vert}\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x}) \sum_hP(h\vert X,\mathfrak{L}_a) \\ &=2^{\vert \mathcal{X} \vert-1}\sum_{\boldsymbol{x}\in\mathcal{X}-X}P(\boldsymbol{x}) \cdot 1\\ \end{aligned}$