机器学习/深度学习-学习笔记：概念补充（上）

最新推荐文章于 2024-09-16 16:56:48 发布

新四石路打卤面

最新推荐文章于 2024-09-16 16:56:48 发布

阅读量1.1k

点赞数 5

分类专栏：机器学习深度学习文章标签：机器学习深度学习命名实体识别概率图傅里叶分析

本文链接：https://blog.csdn.net/Morganfs/article/details/124722948

版权

学习时间：2022.05.09~2022.05.11

概念补充（上）

在进行学习机器学习和深度学习的过程中，对于部分概念会比较陌生（可能是因为没有系统深入学习过统计学、运筹学和概率统计的相关知识；也可能是因为看的东西比较偏实践，对理论的了解不是很深入），同时对有些概念的了解仅限于熟悉的或者用过的那几个，甚至有些概念会用但不知道具体的原理，所以想对其中的几个频繁出现的概念做个系统了解。主要包括：

上：极大似然估计、贝叶斯、傅里叶、马尔科夫、条件随机场；
下：凸集、凸函数与凸优化，优化算法（优化器），过拟合与欠拟合，正则化&归一化、标准化，损失函数和伪标签等。

文章目录

概念补充（上）

1. 极大似然估计 MLE

本部分参考来源有：千字讲解极大似然估计、极大似然估计、极大似然估计详解、一文彻底读懂【极大似然估计】。

对于一系列观察数据，我们常常可以找到一个具体分布来描述，但不清楚分布的参数。这时候我们就需要用**极大似然估计（Maximum Likelihood Estimate，MLE）**来求解这个分布的参数。换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。

1.1 概念

在很多的机器学习问题种，输入 $x$ 是一个向量，输出 $P (x)$ 为某一个时间的概率（比如， $x$ 属于某个类别的概率）。对于一个观测的数据集 $D = \{ x_1,x_2,…,x_n\}$ ，每一个 $x$ 之间都是独立同分布，我们将输入 $x$ 所满足的概率分布建模为 $P (D, θ)$ ，则对新输入的预测为 $P (x ∣ D, θ)$ ，其中 $θ$ 是一个向量，表示了要估计的模型的所有参数（参数估计的对象）。那么如何求解或者估计出 $θ$ 的值呢？

对于θ的本质不同认识，可以分为频率学派和贝叶斯学派两大派别。

频率学派：认为θ是确定的，有一个真实值，目标是找出或者逼近这个真实值；
贝叶斯学派：认为θ是不确定的，不存在唯一的真实值，而是服从某一个概率分布。

因此，对于参数估计也有三种不同的方法：

极大似然估计：MLE（Maximum Likelihood Estimation）【频率学派】
极大后验估计：MAP（Maximum A Posterior）【贝叶斯学派】
贝叶斯估计：BE（Bayesian Estimation）【贝叶斯学派】

最大似然估计的目的就是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。

原理：

极大似然估计是建立在极大似然原理的基础上的一个统计方法，是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。

1.2 公式

对于一组观测样本 $L = ( x_1,x_2,…,x_n )$ ，其似然函数为： $L(x_1,x_2,…,x_n;θ) = ∏^n_{i=1}p(x_1;θ)$ ，称 $L (θ)$ 为样本的似然函数。

极大似然估计的原理就是固定样本观测值 $x_1,x_2,…,x_n )$ ，调整参数 $(θ)$ 使 $L(x_1,x_2,…,x_n;θ) = max\ L(x_1,x_2,…,x_n;θ')$ 。其中， $θ^{'}$ 称为参数 $θ$ 的极大似然估计值。

极大似然估计公式：
$θ_{MLE} = argmax\ p(D, θ) = argmax\ p(x_1,θ)p(x_2,θ)…p(x_n,θ) = argmax\ ∏^n_{i=1}\ p(x_i,θ)$
转化为对数似然函数方程（简化参数θ的求解，保证了极大似然和极大对数似然的等价）：
$ln^{θ_{MLE}} = argmax\ ln^{∏^n_{i=1}\ p(x_i,θ)}$

其损失函数形式 $argmin-ln^{∏^n_{i=1}\ p(x_i,θ)}$ 。

1.3 计算步骤

以正态分布的样本随机变量进行模拟求解，正态分布的公式 $\frac{1}{\sqrt{2\piσ}}exp^{-\frac{(x-μ)^2}{2σ^2}}$ ，具体步骤如下：

写出似然函数：
$∏^n_{i=1}\ f(x_i,θ) = ∏^n_{i=1}\ \frac{1}{\sqrt{2\piσ}}exp^{-\frac{(x-μ)^2}{2σ^2}}\\ = (\frac{1}{\sqrt{2\piσ}})^n\ ∏^n_{i=1}\ exp^{-\frac{(x-μ)^2}{2σ^2}}$
对似然函数取对数：
$ln^{L(θ)} = ln^{∏^n_{i=1}\ f(x_i,θ)} = -\frac{n}{2}ln^{2\pi}-nln^{σ}-\frac{1}{2σ^2}\sum^n_{i=1}(x_i-μ)^2$
计算偏导数，取极值，得方程组：