机器学习/深度学习-学习笔记:概念补充(上)

学习时间:2022.05.09~2022.05.11

概念补充(上)

在进行学习机器学习和深度学习的过程中,对于部分概念会比较陌生(可能是因为没有系统深入学习过统计学、运筹学和概率统计的相关知识;也可能是因为看的东西比较偏实践,对理论的了解不是很深入),同时对有些概念的了解仅限于熟悉的或者用过的那几个,甚至有些概念会用但不知道具体的原理,所以想对其中的几个频繁出现的概念做个系统了解。主要包括:

  • 上:极大似然估计、贝叶斯、傅里叶、马尔科夫、条件随机场;
  • 下:凸集、凸函数与凸优化,优化算法(优化器),过拟合与欠拟合,正则化&归一化、标准化,损失函数和伪标签等。

1. 极大似然估计 MLE

本部分参考来源有:千字讲解极大似然估计极大似然估计极大似然估计详解一文彻底读懂【极大似然估计】

对于一系列观察数据,我们常常可以找到一个具体分布来描述,但不清楚分布的参数。这时候我们就需要用**极大似然估计(Maximum Likelihood Estimate,MLE)**来求解这个分布的参数。换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。

1.1 概念

在很多的机器学习问题种,输入 x x x是一个向量,输出 P ( x ) P(x) P(x)为某一个时间的概率(比如, x x x属于某个类别的概率)。对于一个观测的数据集 D = { x 1 , x 2 , … , x n } D = \{ x_1,x_2,…,x_n\} D={ x1,x2,,xn},每一个 x x x之间都是独立同分布,我们将输入 x x x所满足的概率分布建模为 P ( D , θ ) P(D,θ) P(D,θ),则对新输入的预测为 P ( x ∣ D , θ ) P(x|D,θ) P(xD,θ),其中 θ θ θ是一个向量,表示了要估计的模型的所有参数(参数估计的对象)。那么如何求解或者估计出 θ θ θ的值呢?

对于θ的本质不同认识,可以分为频率学派和贝叶斯学派两大派别。

  • 频率学派:认为θ是确定的,有一个真实值,目标是找出或者逼近这个真实值
  • 贝叶斯学派:认为θ是不确定的,不存在唯一的真实值,而是服从某一个概率分布。

因此,对于参数估计也有三种不同的方法:

  • 极大似然估计:MLE(Maximum Likelihood Estimation)【频率学派】
  • 极大后验估计:MAP(Maximum A Posterior)【贝叶斯学派】
  • 贝叶斯估计:BE(Bayesian Estimation)【贝叶斯学派】

最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。

原理:

极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。

1.2 公式

对于一组观测样本 L = ( x 1 , x 2 , … , x n ) L = ( x_1,x_2,…,x_n ) L=(x1,x2,,xn),其似然函数为: L ( θ ) = L ( x 1 , x 2 , … , x n ; θ ) = ∏ i = 1 n p ( x 1 ; θ ) L(θ) = L(x_1,x_2,…,x_n;θ) = ∏^n_{i=1}p(x_1;θ) L(θ)=L(x1,x2,,xn;θ)=i=1np(x1;θ),称 L ( θ ) L(θ) L(θ)为样本的似然函数。

极大似然估计的原理就是固定样本观测值 ( x 1 , x 2 , … , x n ) ( x_1,x_2,…,x_n ) (x1,x2,,xn),调整参数 ( θ ) (θ) (θ)使 L ( x 1 , x 2 , … , x n ; θ ) = m a x   L ( x 1 , x 2 , … , x n ; θ ′ ) L(x_1,x_2,…,x_n;θ) = max\ L(x_1,x_2,…,x_n;θ') L(x1,x2,,xn;θ)=max L(x1,x2,,xn;θ)。其中, θ ′ θ' θ称为参数 θ θ θ的极大似然估计值。

极大似然估计公式:
θ M L E = a r g m a x   p ( D , θ ) = a r g m a x   p ( x 1 , θ ) p ( x 2 , θ ) … p ( x n , θ ) = a r g m a x   ∏ i = 1 n   p ( x i , θ ) θ_{MLE} = argmax\ p(D, θ) = argmax\ p(x_1,θ)p(x_2,θ)…p(x_n,θ) = argmax\ ∏^n_{i=1}\ p(x_i,θ) θMLE=argmax p(D,θ)=argmax p(x1,θ)p(x2,θ)p(xn,θ)=argmax i=1n p(xi,θ)
转化为对数似然函数方程(简化参数θ的求解,保证了极大似然和极大对数似然的等价):
l n θ M L E = a r g m a x   l n ∏ i = 1 n   p ( x i , θ ) ln^{θ_{MLE}} = argmax\ ln^{∏^n_{i=1}\ p(x_i,θ)} lnθMLE=argmax lni=1n p(xi,θ)

其损失函数形式 = a r g m i n − l n ∏ i = 1 n   p ( x i , θ ) = argmin-ln^{∏^n_{i=1}\ p(x_i,θ)} =argminlni=1n p(xi,θ)

1.3 计算步骤

以正态分布的样本随机变量进行模拟求解,正态分布的公式 f ( x ) = 1 2 π σ e x p − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sqrt{2\piσ}}exp^{-\frac{(x-μ)^2}{2σ^2}} f(x)=2πσ 1exp2σ2(xμ)2,具体步骤如下:

  1. 写出似然函数:
    L ( θ ) = ∏ i = 1 n   f ( x i , θ ) = ∏ i = 1 n   1 2 π σ e x p − ( x − μ ) 2 2 σ 2 = ( 1 2 π σ ) n   ∏ i = 1 n   e x p − ( x − μ ) 2 2 σ 2 L(θ) = ∏^n_{i=1}\ f(x_i,θ) = ∏^n_{i=1}\ \frac{1}{\sqrt{2\piσ}}exp^{-\frac{(x-μ)^2}{2σ^2}}\\ = (\frac{1}{\sqrt{2\piσ}})^n\ ∏^n_{i=1}\ exp^{-\frac{(x-μ)^2}{2σ^2}} L(θ)=i=1n f(xi,θ)=i=1n 2πσ 1exp2σ2(xμ)2=(2πσ 1)n i=1n exp2σ2(xμ)2

  2. 对似然函数取对数:
    l n L ( θ ) = l n ∏ i = 1 n   f ( x i , θ ) = − n 2 l n 2 π − n l n σ − 1 2 σ 2 ∑ i = 1 n ( x i − μ ) 2 ln^{L(θ)} = ln^{∏^n_{i=1}\ f(x_i,θ)} = -\frac{n}{2}ln^{2\pi}-nln^{σ}-\frac{1}{2σ^2}\sum^n_{i=1}(x_i-μ)^2 lnL(θ)=lni=1n f(xi,θ)=2nln2πnlnσ2σ21i=1n(xiμ)2

  3. 计算偏导数,取极值,得方程组:
    { ∂ l n L ( μ , σ 2 ) ∂

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

新四石路打卤面

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值