【机器学习---02】机器学习相关名词解释

最新推荐文章于 2024-04-28 09:36:30 发布

ElegantCodingWH

最新推荐文章于 2024-04-28 09:36:30 发布

阅读量1.4k

点赞数 3

分类专栏： # 机器学习文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/qq_43546676/article/details/127245411

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

1. 损失函数、期望风险、经验风险
2. 经验风险最小化和结构风险最小化
- 2.1 结构风险（正则化）
- 2.2 两者的定义
3. 训练误差与测试误差
4. 过拟合与欠拟合
5. 泛化误差与泛化误差上界
- 5.1 泛化误差
- 5.2 泛化误差上界
6. 生成模型与判别模型
7. 最大似然估计
- 7.1 极大似然估计
- 7.2 最大似然估计与经验风险关系

1. 损失函数、期望风险、经验风险

常见的损失函数：

注意：损失函数不一定是上面的4个，也可以自定义损失函数。比如：感知机的损失函数就是自定义：误分类点到超平面的距离。
期望风险
经验风险

2. 经验风险最小化和结构风险最小化

2.1 结构风险（正则化）

结构风险：指为经验风险加上正则项，用于对模型的参数个数（即模型复杂度）进行限制
在这里插入图片描述

2.2 两者的定义

用于表明什么是最优模型，即求最小化的目标函数是谁？

经验风险最小化：指经验风险最小的模型就是最优模型。
结构风险最小化：为了防止过拟合而提出来的，指结构风险最小的模型就是最优模型。

因此，在机器学习三要素中，第三步使用算法求解最优模型时，有两个角度。

3. 训练误差与测试误差

训练误差：模型在训练集上的经验风险
测试误差：模型在测试集上的经验风险

4. 过拟合与欠拟合

4.1 过拟合及解决方法

在这里插入图片描述

过拟合：求得的最优模型过于复杂导致预测效果不好。 比如上面的M = 4时求得的最优化模型，虽然训练误差为，但是训练误差缺很大。而评价一个模型的好坏是根据泛化能力(≈ 泛化误差上界 ≈ 测试误差) 来衡量的，训练误差越小越好。
解决方法：
① 增加样本量【为什么增加样本量可以防止过拟合？具体见泛化误差上界这一节】
② 交叉验证：取参数复杂度的平均，故可以防止过拟合。
③ 使用结构风险最小化而不是经验风险最小化【为什么结构风险最小化可以防止过拟合？见“正则化”这一节】

4.2 交叉验证

在这里插入图片描述

4.3 欠拟合

5. 泛化误差与泛化误差上界

5.1 泛化误差

泛化误差：指模型在测试集上的期望风险。

区分：测试误差是模型在测试集上的经验风险。
作用：对于不同复杂度下得到的最优化模型，我们可以使用泛化误差来衡量模型的好坏。泛化误差越小，模型越好。

5.2 泛化误差上界

和期望风险与经验风险的一样，由于 P(x, y) 是不知道的，也求不出来，所以转而使用 泛化误差上界 来代替 泛化误差去评估模型的好坏。
在这里插入图片描述

可以观察到泛化误差上界与 N成反比，所以样本容量越大，模型越好。这就解释了为什么增加样本容量可以防止过拟合。
可以观察到泛化误差上界与 d成反比。参数越多，d越大，导致泛化误差上界越大，模型就越差。

注意：有时候近似的用 测试误差 来代替 泛化误差上界。

6. 生成模型与判别模型

注意：生成模型与判别模型都是监督学习中的概念。而监督模型中的模型模型有两类：概率模型P(y | x) 与 决策模型 y = f(x)。

定义：
区别 / 特点：
1. ① 生成模型关心的是输入x与输出y的关系。即关心训练数据本身的特性，而不关心各类的边界在哪；
  ② 判别模型关心的是输入x，该输出什么y，关心各类的边界在哪，而不关心训练数据本身的特性。
2. 根据公式容易知道：由生成模型可以得到判别模型，但由判别模型得不到生成模型。
3. 当存在隐变量（当我们找不到引起某一现象的原因的时候，我们就把这个在起作用但是无法确定的因素，叫“隐变量”）时，仍可以利用生成方法学习，此时判别方法不能用。
4. 生成模型收敛速度快
5. 判别模型的准确率高
6. 判别模型是直接求决策模型或概率模型，所以抽象程度更高，往往可以用来简化问题。
代表算法：
例子1：
例子2：

7. 最大似然估计

7.1 极大似然估计

区分：概率与似然
1. 概率是已知模型和参数，去预测数据。
2. 似然是已知数据，推模型和参数。
概率函数与似然函数：对于P(x | θ) 函数，x表示某一个具体的数据；θ 表示模型的参数。
1. 如果参数θ已知，样本x未知，是推数据，所以P(x | θ) 函数叫概率函数。
2. 如果参数x已知，样本θ未知，是推参数，所以P(x | θ) 函数叫似然函数。

似然函数的自变量是θ，因变量是P(x | θ)。如果取θ = θ₁，那么 P(x | θ₁) 表示在 θ₁ 下，样本x出现的概率。

最大似然估计：指使似然函数最大。即找到参数 θ 的一个估计值，使得当前样本x出现的可能性最大。

最大似然估计有一个前提：所有的采样都是独立同分布的，因此可以进行如下恒等变形

例子：

7.2 最大似然估计与经验风险关系

当损失函数是对数损失函数时，经验风险最小化等价于极大似然估计。

在这里插入图片描述

ElegantCodingWH

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
【机器学习---02】机器学习相关名词解释

1. 损失函数、期望风险、经验风险2. 经验风险最小化和结构风险最小化2.1 结构风险（正则化）2.2 两者的定义3. 训练误差与测试误差4. 过拟合与欠拟合4.1 过拟合及解决方法4.2 交叉验证4.3 欠拟合5. 泛化误差与泛化误差上界5.1 泛化误差5.2 泛化误差上界6. 生成模型与判别模型7. 最大似然估计7.1 极大似然估计7.2 最大似然估计与经验风险关系
复制链接

扫一扫