机器学习解惑之路

最新推荐文章于 2024-01-06 18:42:08 发布

「已注销」

最新推荐文章于 2024-01-06 18:42:08 发布

阅读量124

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/New_Leaf/article/details/105056688

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

统计机器学习学习使用总结

1. 什么是统计学习方法的三要素
2. 什么是学习
3. 什么是统计学习
4. 统计学习的分类有哪些
5. 机器学习研究那些问题
6. 什么是独立同分布
7. 监督学习的分类有哪些
8. 什么是联合概率分布？
9. 为什么对数损失函数可以衡量损失
10. 什么是大数定理
11. 什么是梯度下降法
12. 常见的损失函数有哪些
参考文献

1. 什么是统计学习方法的三要素

模型：由输入X得到输出Y的函数
策略：如何筛选出函数的规则
算法：如何快速求解出上述函数

2. 什么是学习

如果一个系统能够通过执行某个过程改进其自身的性能，该过程就叫学习
对象：系统
目的：改进系统自身性能
方式：执行某个过程

3. 什么是统计学习

统计学习就是关于计算机基于数据构建概率统计模型并运用模型数据进行分析和预测的一门学科。
对象：数据
目的：预测与分析新的数据
核心：构建概率统计模型
前提：同类数据具有一定的统计规律性（由于统计学习是基于概率的，如果同类数据没有统计规律性，即没有一定的概率性，则一定无法构建出概率模型）

4. 统计学习的分类有哪些

监督学习：给定已标记好的输入与输出数据对模型进行训练，并使用训练好的模型对新输入数据进行预测和分析的过程
半监督学习：使用大量未标记的数据及部分已标记的数据进行。
无监督学习：根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题的过程。
强化学习：在系统进行运行的过程中，通过不断与外界交互从而不断提高自身性能的过程。

5. 机器学习研究那些问题

机器学习一般流程如下

定位问题：监督学习问题 or 无监督学习问题
提取特征：以监督学习为例，对原始输入数据进行提取，以获取该数据的特征
如何确定模型，例如在监督学习中选择使用SVM 还是 HMM
如何确定策略
如何获取最佳模型
如何评估

6. 什么是独立同分布

独立是概率论中的意义，是指如果有两个事件，事件A与事件B发生互不影响，则说明事件A与B是相互独立的。
同分布也是概率论中的东西，是指两个随机变量X与Y服从同一分布，即通俗地讲是两个变量取到的某值的概率大小一致。
独立同分布一般用于规定测试集与训练集，即保证两个数据集是相互独立同时又同属于一个分布。相互独立保证了两个数据集的取值互不影响，同分布保证了两个数据集具有相同的统计规律性。因此满足了统计学些的前提，则可以使用统计学习来方法来进行研究。

7. 监督学习的分类有哪些

	输入变量X	输出变量Y
回归	连续	连续
分类	-	有限离散
标注	序列	序列

8. 什么是联合概率分布？

联合概率分布是统计学中的意义，表示几个随机变量间同时发生的概率。个人理解，在统计学习领域中，与其说联合概率分布，不如说条件概率分布，通常，对于输入变量X，与输出变量Y，则在X确认的情况下，Y取某值的也随之确认（理想状态下，即X与Y是相关的），如果x与Y相互独立，个人认为此时是无法使用统计学习来进行分析数据的。因此，X与Y服从P(x,y)的联合概率分布是必要条件，而非X与Y关系的充分条件。

9. 为什么对数损失函数可以衡量损失

个人理解，单独看对数损失函数不易理解，需要放在经验风险函数中进行研究更好理解。如极大似然估计：
极大似然估计的核心思想是小概率时间不易发生，即 $P(Y|X_1= n_1,X_2=n_2,\theta)$ 发生是在使该事件发生的最大的 $\theta$ 取值的模型处产生的，因为其他模型发生的概率小，因此不易发生。
为了简化该公式，极大似然估计进行了条件加强：即声明$X_1,X_2是条件独立的，则上式可化为：
$P(Y|X_1= n_1,X_2=n_2,\theta)=P(Y|X_1= n_1,\theta)P(Y|X_2=n_2,\theta)$

继续简化，对上式取对数：
$L(\theta)=lnP(Y|X_1= n_1,\theta)+lnP(Y|X_2=n_2,\theta) = \sum_{i=1}^{2}lnP(Y|X_i= n_i,\theta)$
此处是最大化 $L(\theta)$ ，为了与其他损失函数保持一致，取负，由求最大值改为求解最小值即可。
上式中， $-lnP(Y|X_2=n_2,\theta)$ 即是对数损失函数。
因此，当模型是条件概率时，损失函数为对数损失函数时，经验风险最小化等价于极大似然估计

10. 什么是大数定理

大数定理是概率论中的内容，指如果数据集足够大，则事物出现的频率无限接近于其概率。
由于在现实生活中，联合概率分布不易获取，因此，根据大数定律应使用经验风险函数替代期望风险函数，而经验风险函数即是关于数据下的平均意义下的损失函数。因此，最佳模型就是经验风险最小的模型。

11. 什么是梯度下降法

说到梯度下降法，首先要知道什么是梯度。梯度就是曲线上再某点增长或下降最快的点的速度，因此梯度是有方向的。个人理解，通俗一点，好比下山的时候，如果一个山比较陡，不考虑耗费的体力的情况下，是不是你下山时沿最陡峭处下山所走的路线最短，梯度就是这个陡峭的路。
梯度下降法就是采用梯度这一性质求解最优解的问题。
梯度下降法分为随机梯度下降法和批量梯度下降法，个人理解，随机梯度下降法与批量梯度下降法的区别主要是迭代过程中，选取的样本数，随机梯度下降法在整个训练集中选取样本数较少，而批量梯度下降法则选取较多样本点。因此，随机梯度下降法收敛速度快，但不精确，而批量梯度下降法收敛速度慢，但精度高。

12. 常见的损失函数有哪些

0-1损失函数
$L(x_{i},y_{i}) = \begin{cases} 1 \quad f(x_{i}) = y_{i} , i=0,1,2,3,... \\ 0 \quad f(x_{i}) \neq y_{i}, i=0,1,2,3,... \end{cases}$
平方损失函数
$L(x_{i},y_{i}) = (f(x_{i}) - y_{i})^2 \quad i=0,1,2,3,...$
绝对值损失函数
$L(x_{i},y_{i}) = |f(x_{i}) - y_{i}| \quad i=0,1,2,3,...$
对数损失函数
$L(x_{i},y_{i}) = -log(P(y_{i}|f(x_{i})) \quad i=0,1,2,3,...$

参考文献

[1]: 《统计学习方法》李航清华大学出版社

「已注销」

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习解惑之路

AI学习笔记1. 统计学习方法的三要素2. 模型选择方法3. 生成模型与判别模型4. 分类问题，标注问题，回归问题5. 统计学习的定义6. 统计学习的基本假设7. 学习的定义8. 学习分类9. 统计学习为什么要求数据集独立同分布呢？参考文献1. 统计学习方法的三要素模型：输入->输出的函数关系策略：选择最佳模型的规则算法：如何在一定的规则下，选择最佳模型2. 模型选择方法...
复制链接

扫一扫

专栏目录