【西瓜书】绪论

最新推荐文章于 2024-09-14 20:23:55 发布

Suuuuperh

最新推荐文章于 2024-09-14 20:23:55 发布

阅读量386

点赞数 1

文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/krstin_chu/article/details/126710873

版权

本文介绍了机器学习的基本概念，包括数据集、示例、特征维度和标记空间。区分了分类与回归任务，以及监督与无监督学习的区别。重点讨论了泛化能力，强调模型在新样本上的适用性。此外，还提到了归纳偏好和版本空间，并引用奥卡姆剃须刀原则来指导模型选择。

摘要由CSDN通过智能技术生成

符号描述

1.D={x₁,x₂,…,x_m} ：m个示例的数据集，x_i∈X，X为样本空间。
2.对于每个示例x_i={x_i1,x_i2,…,x_id}，d表示维数。x_ij是指示例x_i在第j维上的取值。
3.（x_i，y_i）表示第i个样例x_i及其标记y_i，其中y_i1∈Y，Y表示标记空间（或输出空间）。

分类&回归

分类：预测的是离散值；
回归：预测的是连续值；

一般的，预测任务是希望建立一个从输入空间X到输出空间Y的映射f：X→Y。

监督&无监督

分类标准：训练数据是否拥有标记信息；
监督学习：有标记
代表：分类算法和回归算法模型
无监督学习：无标记
代表：聚类算法

泛化

机器学习的目标：使得学习的模型能够很好的使用于“新样本”。
泛化：学得的模型适用于新样本的能力就叫做泛化能力。具有泛化能力的模型能够更好的适用于整个样本空间。

假设

我们通常假设样本空间中全体样本服从一个未知的分布D，我们获得的每个样本是独立同分布的（independent and identically distributed 简称i.i.d.）。

一般的，我们获得的样本数量越多，我们获得的分布D的信息越多，我们更容易获得具有强泛化能力的学习模型。

归纳&演绎

归纳：特殊到一般，“ 泛化 ” 过程；
演绎：一般到特殊，” 特化 “ 过程；

版本空间

学习空间看作是在所有假设祖成的空间里进行搜索的过程，我们通常需要选择一种策略对假设空间搜索才能获得解。我们搜索的目标是找到于训练集匹配的假设。现实生活中我们通常面临巨大的假设空间，但是学习过程是基于有限样本进行的。因此可能会存在多个假设和训练集一致的情况（多解情况），即存在假设集合，我们称之为版本空间。

归纳偏好

假设学习后产生两种假设，由于我们必须产生一个模型，因此，我们对于产生结果的选择就会产生偏好。而机器学习算法在学习过程中对某种假设的偏好，就叫做归纳偏好（或偏好）。
例如在图1.3里，存在多条曲线与有限样本训练集一致，算法对于其中一种的选择就叫做偏好。
请添加图片描述
任何机器学习算法都必须有其偏好，否则我们将会得到假设时而正确时而错误的结果，从而得不到确切的结果。