学习时间:2022.05.09~2022.05.11
概念补充(上)
在进行学习机器学习和深度学习的过程中,对于部分概念会比较陌生(可能是因为没有系统深入学习过统计学、运筹学和概率统计的相关知识;也可能是因为看的东西比较偏实践,对理论的了解不是很深入),同时对有些概念的了解仅限于熟悉的或者用过的那几个,甚至有些概念会用但不知道具体的原理,所以想对其中的几个频繁出现的概念做个系统了解。主要包括:
- 上:极大似然估计、贝叶斯、傅里叶、马尔科夫、条件随机场;
- 下:凸集、凸函数与凸优化,优化算法(优化器),过拟合与欠拟合,正则化&归一化、标准化,损失函数和伪标签等。
1. 极大似然估计 MLE
本部分参考来源有:千字讲解极大似然估计、极大似然估计、极大似然估计详解、一文彻底读懂【极大似然估计】。
对于一系列观察数据,我们常常可以找到一个具体分布来描述,但不清楚分布的参数。这时候我们就需要用**极大似然估计(Maximum Likelihood Estimate,MLE)**来求解这个分布的参数。换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。
1.1 概念
在很多的机器学习问题种,输入 x x x是一个向量,输出 P ( x ) P(x) P(x)为某一个时间的概率(比如, x x x属于某个类别的概率)。对于一个观测的数据集 D = { x 1 , x 2 , … , x n } D = \{ x_1,x_2,…,x_n\} D={ x1,x2,…,xn},每一个 x x x之间都是独立同分布,我们将输入 x x x所满足的概率分布建模为 P ( D , θ ) P(D,θ) P(D,θ),则对新输入的预测为 P ( x ∣ D , θ ) P(x|D,θ) P(x∣D,θ),其中 θ θ θ是一个向量,表示了要估计的模型的所有参数(参数估计的对象)。那么如何求解或者估计出 θ θ θ的值呢?
对于θ的本质不同认识,可以分为频率学派和贝叶斯学派两大派别。
- 频率学派:认为θ是确定的,有一个真实值,目标是找出或者逼近这个真实值;
- 贝叶斯学派:认为θ是不确定的,不存在唯一的真实值,而是服从某一个概率分布。
因此,对于参数估计也有三种不同的方法:
- 极大似然估计:MLE(Maximum Likelihood Estimation)【频率学派】
- 极大后验估计:MAP(Maximum A Posterior)【贝叶斯学派】
- 贝叶斯估计:BE(Bayesian Estimation)【贝叶斯学派】
最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
原理:
极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
1.2 公式
对于一组观测样本 L = ( x 1 , x 2 , … , x n ) L = ( x_1,x_2,…,x_n ) L=(x1,x2,…,xn),其似然函数为: L ( θ ) = L ( x 1 , x 2 , … , x n ; θ ) = ∏ i = 1 n p ( x 1 ; θ ) L(θ) = L(x_1,x_2,…,x_n;θ) = ∏^n_{i=1}p(x_1;θ) L(θ)=L(x1,x2,…,xn;θ)=∏i=1np(x1;θ),称 L ( θ ) L(θ) L(θ)为样本的似然函数。
极大似然估计的原理就是固定样本观测值 ( x 1 , x 2 , … , x n ) ( x_1,x_2,…,x_n ) (x1,x2,…,xn),调整参数 ( θ ) (θ) (θ)使 L ( x 1 , x 2 , … , x n ; θ ) = m a x L ( x 1 , x 2 , … , x n ; θ ′ ) L(x_1,x_2,…,x_n;θ) = max\ L(x_1,x_2,…,x_n;θ') L(x1,x2,…,xn;θ)=max L(x1,x2,…,xn;θ′)。其中, θ ′ θ' θ′称为参数 θ θ θ的极大似然估计值。
极大似然估计公式:
θ M L E = a r g m a x p ( D , θ ) = a r g m a x p ( x 1 , θ ) p ( x 2 , θ ) … p ( x n , θ ) = a r g m a x ∏ i = 1 n p ( x i , θ ) θ_{MLE} = argmax\ p(D, θ) = argmax\ p(x_1,θ)p(x_2,θ)…p(x_n,θ) = argmax\ ∏^n_{i=1}\ p(x_i,θ) θMLE=argmax p(D,θ)=argmax p(x1,θ)p(x2,θ)…p(xn,θ)=argmax i=1∏n p(xi,θ)
转化为对数似然函数方程(简化参数θ的求解,保证了极大似然和极大对数似然的等价):
l n θ M L E = a r g m a x l n ∏ i = 1 n p ( x i , θ ) ln^{θ_{MLE}} = argmax\ ln^{∏^n_{i=1}\ p(x_i,θ)} lnθMLE=argmax ln∏i=1n p(xi,θ)
其损失函数形式 = a r g m i n − l n ∏ i = 1 n p ( x i , θ ) = argmin-ln^{∏^n_{i=1}\ p(x_i,θ)} =argmin−ln∏i=1n p(xi,θ)。
1.3 计算步骤
以正态分布的样本随机变量进行模拟求解,正态分布的公式 f ( x ) = 1 2 π σ e x p − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sqrt{2\piσ}}exp^{-\frac{(x-μ)^2}{2σ^2}} f(x)=2πσ1exp−2σ2(x−μ)2,具体步骤如下:
-
写出似然函数:
L ( θ ) = ∏ i = 1 n f ( x i , θ ) = ∏ i = 1 n 1 2 π σ e x p − ( x − μ ) 2 2 σ 2 = ( 1 2 π σ ) n ∏ i = 1 n e x p − ( x − μ ) 2 2 σ 2 L(θ) = ∏^n_{i=1}\ f(x_i,θ) = ∏^n_{i=1}\ \frac{1}{\sqrt{2\piσ}}exp^{-\frac{(x-μ)^2}{2σ^2}}\\ = (\frac{1}{\sqrt{2\piσ}})^n\ ∏^n_{i=1}\ exp^{-\frac{(x-μ)^2}{2σ^2}} L(θ)=i=1∏n f(xi,θ)=i=1∏n 2πσ1exp−2σ2(x−μ)2=(2πσ1)n i=1∏n exp−2σ2(x−μ)2 -
对似然函数取对数:
l n L ( θ ) = l n ∏ i = 1 n f ( x i , θ ) = − n 2 l n 2 π − n l n σ − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 ln^{L(θ)} = ln^{∏^n_{i=1}\ f(x_i,θ)} = -\frac{n}{2}ln^{2\pi}-nln^{σ}-\frac{1}{2σ^2}\sum^n_{i=1}(x_i-μ)^2 lnL(θ)=ln∏i=1n f(xi,θ)=−2nln2π−nlnσ−2σ21i=1∑n(xi−μ)2 -
计算偏导数,取极值,得方程组:
{ ∂ l n L ( μ , σ 2 ) ∂