基于《机器学习》学习整理- chapter 1

最新推荐文章于 2024-04-17 11:32:30 发布

frankstars

最新推荐文章于 2024-04-17 11:32:30 发布

阅读量923

点赞数 1

分类专栏：机器学习总结文章标签：机器学习

本文链接：https://blog.csdn.net/a101070096/article/details/53084971

版权

机器学习总结专栏收录该内容

4 篇文章 0 订阅

订阅专栏

基于《机器学习》学习整理- chapter 1

@(机器学习)[数据]

- - 基于机器学习学习整理- chapter 1

数据

机器学习的基本-数据，记录的集合-数据集。其中每条记录是一个实体的描述或者实例。通常每个实例又会有自己的属性特征，用一组不同的属性特征来从不同的方面来描述该实例，这些属性特征可以对应不同的特征值，那么就可以形成描述实例的”特征向量”。

简单的代数描述：
数据集D = { $x_1,x_2,...,x_m$ },表示共有m个实例；
若每个实例又有d个属性描述，则每个实例 $x_i=(x_{i1},x_{i2},..,x_{id})$ ;
其中 $x_{ij}$ 表示第i个实例在第j个属性上的取值。
$(x_i,y_i)$ 表示第i个实例，其中 $y_i\in Y$ 是实例 $x_i$ 的标记(label)，Y是所有标记的组合，标记空间或者输出空间。
- 训练集：训练样本组成的数据集；
- 假设：学得模型对应了关于数据的某种潜在的规律；
- 模型：学习器，可看作是学习算法在给定数据和参数空间上的实例化。

分类和回归和聚类

若我们预测的是离散值，此类学习任务即为分类，classification；若我们预测的是连续值，此类学习任务即为回归，regression；这两类是监督学习(supervised learning)的代表，聚类是无监督学习(unsupervised learning)的代表。

一般地，预测任务是希望通过对训练数据集{ $(x_1,y_1),(x_2,y_2),...,(x_m,y_m)$ }进行学习，建立一个从输入空间 $\chi$ 到输出空间 $Y$ 的映射 $f:\chi\rightarrow Y$ .对于二分类任务，通常令 $Y=\{-1,+1\}$ 或 $\{0,1\}$ ;对多分类任务， $|Y|$ >2;对于回归任务， $Y=R$ ， $R$ 为实数集。
一般而言，学得模型适用于新样本的能力，成为”泛化能力“，具有强泛化能力的模型能很好地适用于整个样本空间。通常假设样本空间中全体样本服从一个未知分布 $D$ ,，我们获得的每个样本都是独立地从这个分布上采样获得的，即”独立同分布”(independent and identically distributed)。

假设空间

归纳学习

从样例中学习归纳，狭义上又称为概念学习或概念形成。其中最基本的是布尔概念学习，可表示为0/1布尔值的目标概念的学习。

学习过程

学习过程看作是一个在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集匹配的假设，即能够将训练集中的样例判断正确的假设。假设的表示一旦确定，那么假设空间及规模大小就确定了。
学习的过程是基于有限样本训练集进行的，因此，可能有多个假设与训练集一致，即存在着一个与训练集一致的”假设集合”，称之为”版本空间“(version space).

归纳与偏好

机器学习算法在学习过程中对某种类型假设的偏好，称为”归纳偏好“(inductive bias)。
归纳偏好的作用，要学得一个与训练集一致的模型，相当于找到一条穿过所有训练样本点的曲线，显然，对于有限个样本组成的训练集，存在着很多条曲线与其一致。我们的学习算法必须有某种偏好，才能产出它认为”正确的”模型。

奥卡姆剃刀(Occam’s razor)

一种常用的、自然科学研究中最基本的原则，即若有多个假设与观察一致，则选最简单的那个。

NFL定理

为简单起见，假设样本空间 $\chi$ 和假设空间 $H$ 都是离散的，令 $P(h|X,E_a)$ 代表算法 $E_a$ 基于训练数据 $X$ 产生假设h的概率，再令 $f$ 代表我们希望学习的真实函数， $E_a$ 的训练集外误差，即 $E_a$ 在训练集之外的所有样本上的误差为：

$E o t e (E a | X, f) = \sum h \sum x \in χ - X P (x) Ⅱ (h (x) \neq f (x)) P (h | X, E a)$ $E_{ote}(E_a|X,f) = \sum_h\sum_{x\in\chi - X}P(x)Ⅱ(h(x)\neq f(x))P(h|X,E_a)$
其中Ⅱ(.)是指示函数，若.为真是取1，否则取0.
若 $f$ 均匀分布，则有一半的 $f$ 对 $x$ 的预测与 $h(x)$ 不一致。
$E o t e (E a | X, f) = 2 | χ | - 1 \sum x \in χ - X P (x)$ $E_{ote}(E_a|X,f) = 2^{|\chi|-1}\sum_{x\in\chi-X}P(x)$
总误差竟然与学习算法无关！对于任意两个学习算法 $E_a$ 和 $E_b$ ,我们都有
$\sum f E o t e (E a | X, f) = \sum f E o t e (E b | X, f)$ $\sum_fE_{ote}(E_a|X,f) = \sum_fE_{ote}(E_b|X,f)$
这就是”没有免费的午餐”定理(No free Lunch Theorem,简称NFL定理).
前提：所有问题出现的机会相同、或所有问题都同等重要。

frankstars

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于《机器学习》学习整理- chapter 1

基于《机器学习》学习整理- chapter 1@(机器学习)[数据]基于机器学习学习整理- chapter 1数据假设空间归纳与偏好数据机器学习的基本-数据，记录的集合-数据集。其中每条记录是一个实体的描述或者实例。通常每个实例又会有自己的属性特征，用一组不同的属性特征来从不同的方面来描述该实例，这些属性特征可以对应不同的特征值，那么就可以形成描述实例的”特征向量”。简单的代数描述：
复制链接

扫一扫

专栏目录