优化
优化问题,首先有一个优化目标,然后是有计算公式/函数/模型。机器学习中的优化目标就是损失函数。
这之后,优化可以简单的理解为最小化/最大化我们的目标函数(高数中求极值),一般是通过更新函数或模型中的参数来实现优化过程。
参数估计
统计量
统计量指的是均值 E ( x ) E(x) E(x)、方差 S ( x ) S(x) S(x)等。
什么是参数估计
当随机变量 X X X的真实分布未知时,使用 X X X的样本来估计总体参数。参数估计分为如下两类:
- 点估计: 通过样本来估计总体分布函数中未知参数的值
- 区间估计:估计总体分布中未知参数的区间,并给出这个区间对应的置信度
这里主要总结点估计。点估计的基本思想包括以下几步(注意这里是已知 X X X的分布形式,但不知道其中的部分参数。例如位于伯努利分布 f ( x , θ ) = b ( 1 , θ ) f(x, \theta) = b(1, \theta) f(x,θ)=b(1,θ)、正态分布 f ( x , θ ) = N ( θ 1 , θ 2 ) f(x, \theta) = N(\theta_1, \theta_2) f(x,θ)=N(θ1,θ2),以及深度学习模型 f ( x , θ ) f(x, \boldsymbol{\theta}) f(x,θ)等。):
- 根据待求参数以及总体分布函数形式,构造一个适当的统计量作为参数的估计量
θ
^
(
X
1
,
X
2
,
⋯
,
X
n
)
\hat{\theta}(X_1, X_2,\cdots,X_n)
θ^(X1,X2,⋯,Xn), 这个统计量可以是总体分布的一阶矩、二阶矩、方差、似然函数等。
注意这里估计量是样本的函数,选取的样本不同,函数值不同,即参数估计值不同,样本足够大时,估计值就可以作为总体分布参数的近似值。
- 根据观测样本,根据步骤1中选择的统计量计算出对应的统计量观测值
- 使用如下等量关系建立方程,解这个方程就能得到待估计的参数值。
样 本 的 统 计 量 观 测 值 = 分 布 函 数 公 式 计 算 得 到 的 统 计 量 ( θ 的 函 数 ) 样本的统计量观测值 = 分布函数公式计算得到的统计量(\theta的函数) 样本的统计量观测值=分布函数公式计算得到的统计量(θ的函数) - 估计量的选择标准:无偏性和有效性。
点估计的两种方法
以下两种方法的区别在于估计
- 矩估计:使用一阶矩和二阶矩作为估计量
依据:样本矩依概率收敛于总体矩
。 - 最大似然:使用一个样本中各个观测值的联合概率,即似然函数作为估计量
依据:一个样本, 是当前总体分布参数下概率最大的观测值
。似然函数:
L ( θ ) = ∏ i = 0 n p ( x i ; θ ) L(\theta) = \prod \limits_{i=0}^n p(x_i; \theta) L(θ)=i=0∏np(xi;θ)
这里要特别注意,并非所有情况下似然函数都是以上形式,例如序列标注任务中的CRF,同样是似然函数但别人长得就不一样,具体形式要根据观测值的联合概率计算方式确定,只有各个观测值之间相互独立才会有以上形式的似然函数!!!
为了计算方便,不改变上述公式单调性的情况下使用等价的对数似然函数:
ln
L
(
θ
)
=
∑
i
=
0
n
p
(
x
i
;
θ
)
\ln L(\theta) = \sum \limits_{i=0}^np(x_i;\theta)
lnL(θ)=i=0∑np(xi;θ)
求解参数时不再是求前面提到的等量关系方程,而是直接求
arg min
θ
{
ln
L
(
θ
)
}
\argmin_{\theta} \{\ln L(\theta)\}
θargmin{lnL(θ)}
极大似然的应用
极大似然是很多机器学习算法的损失函数:
- 条件随机场 CRF
- 逻辑回归 Logistics Regression
- 统计语言模型 Language Model
- 线性回归中的均方误差损失函数(最小二乘法)也可以由极大似然+正态分布推导得到。参考:最小二乘法的本质、机器学习 — 最大似然估计的应用