《机器学习》阅读笔记系列一

最新推荐文章于 2024-04-29 15:35:29 发布

superY25

最新推荐文章于 2024-04-29 15:35:29 发布

阅读量406

点赞数

分类专栏：人工智能文章标签：模型选择归纳偏好

本文链接：https://blog.csdn.net/superY_26/article/details/127743653

版权

人工智能专栏收录该内容

68 篇文章 10 订阅

订阅专栏

机器学习中模型训练本质上是从所有的样本中学习到一般的规律，使得模型能适应样本空间中所有样本。我们可以称这个过程为“归纳学习”的过程。

在这个模型训练的过程中，我们如何判断两个模型，哪个更好？在具体的现实问题中，通常判断模型的偏好是否与实际问题本身更匹配，大多数时候这直接决定了模型能否取得好的性能。因为模型在训练的过程中没有对样本产生某种偏好，就会被样本中某些“等效”的样本所迷惑，从而对于一个新的样本，模型时而给出好的结果，时而给出不好的结果。
更一般的原因是“没有免费的午餐”定理（No Free Lunch Theoren, 简称NFL定理）[Wolpert, 1996; Wolpert and Macready, 1995]。假设样本空间 $X$ 和假设空间 $H$ 都是离散的，令 $P(h|X,\xi_a)$ 代表模型 $\xi_a$ 基于训练集 $X$ 产生假设 $h$ 的概率，再令 $f$ 代表我们希望学习的真实目标函数， $\xi_a$ 的“训练集外的误差”，即 $\xi_a$ 在训练集之外的所有样本上的误差为 $E_{ote}(\xi_a|X,f)=\sum_f\sum_{x\in \chi-X}P(x)\Bbb{I}(h(x)\not = f(x))P(h|X,\xi_a)$ 其中 $\Bbb{I}(·)$ 表示指示函数，若·为真则取值1，否则取值0，在二分类问题，且真实目标函数可以是任何函数 $\chi \mapsto \{0,1\}$ ，函数空间为 $\{0,1\}^{|\chi|}$ 对所有可能的 $f$ 按均匀分布对误差求和，有 $\sum_fE_{ote}(\xi_a|X,f)=\sum_f\sum_h\sum_{x\in \chi-X}P(x)\Bbb{I}(h(x)\not = f(x))P(h|X,\xi_a)$ $\quad\quad\quad\quad\quad\quad\quad\quad=\sum_{x\in \chi-X}P(x)\sum_hP(h|X,\xi_a)\sum_f\Bbb{I}(h(x)\not = f(x))$ $\quad\quad=\sum_{x\in \chi-X}P(x)\sum_hP(h|X,\xi_a)\frac{1}{2}2^{|\chi|}$ $\quad\quad=\frac{1}{2}2^{|\chi|}\sum_{x\in \chi-X}P(x)\sum_hP(h|X,\xi_a)$ $=2^{|\chi|-1}\sum_{x\in \chi-X}P(x)·1\quad\quad\quad$ 从公式中可以看出，模型的总误差和模型无关。因此，对于任意两个学习的模型 $\xi_a$ 和 $\xi_b$ 我们都有： $\sum_fE_{ote}(\xi_a|X,f)=\sum_fE_{ote}(\xi_b|X,f)$ 它们的期望是相同的。
所以，我们在评判一个模型的性能，一定要结合具体的问题假设来判断，它是否更偏好具体问题。