优化、参数估计与机器学习的关系

优化

优化问题,首先有一个优化目标,然后是有计算公式/函数/模型。机器学习中的优化目标就是损失函数。
这之后,优化可以简单的理解为最小化/最大化我们的目标函数(高数中求极值),一般是通过更新函数或模型中的参数来实现优化过程。

参数估计

统计量

统计量指的是均值 E ( x ) E(x) E(x)、方差 S ( x ) S(x) S(x)等。

什么是参数估计

当随机变量 X X X的真实分布未知时,使用 X X X的样本来估计总体参数。参数估计分为如下两类:

  • 点估计: 通过样本来估计总体分布函数中未知参数的值
  • 区间估计:估计总体分布中未知参数的区间,并给出这个区间对应的置信度

这里主要总结点估计。点估计的基本思想包括以下几步(注意这里是已知 X X X的分布形式,但不知道其中的部分参数。例如位于伯努利分布 f ( x , θ ) = b ( 1 , θ ) f(x, \theta) = b(1, \theta) f(x,θ)=b(1,θ)、正态分布 f ( x , θ ) = N ( θ 1 , θ 2 ) f(x, \theta) = N(\theta_1, \theta_2) f(x,θ)=N(θ1,θ2),以及深度学习模型 f ( x , θ ) f(x, \boldsymbol{\theta}) f(x,θ)等。):

  1. 根据待求参数以及总体分布函数形式,构造一个适当的统计量作为参数的估计量 θ ^ ( X 1 , X 2 , ⋯   , X n ) \hat{\theta}(X_1, X_2,\cdots,X_n) θ^(X1,X2,,Xn), 这个统计量可以是总体分布的一阶矩、二阶矩、方差、似然函数等。注意这里估计量是样本的函数,选取的样本不同,函数值不同,即参数估计值不同,样本足够大时,估计值就可以作为总体分布参数的近似值。
  2. 根据观测样本,根据步骤1中选择的统计量计算出对应的统计量观测值
  3. 使用如下等量关系建立方程,解这个方程就能得到待估计的参数值。
    样 本 的 统 计 量 观 测 值 = 分 布 函 数 公 式 计 算 得 到 的 统 计 量 ( θ 的 函 数 ) 样本的统计量观测值 = 分布函数公式计算得到的统计量(\theta的函数) =θ
  4. 估计量的选择标准:无偏性和有效性。

点估计的两种方法

以下两种方法的区别在于估计

  • 矩估计:使用一阶矩和二阶矩作为估计量依据:样本矩依概率收敛于总体矩
  • 最大似然:使用一个样本中各个观测值的联合概率,即似然函数作为估计量依据:一个样本, 是当前总体分布参数下概率最大的观测值。似然函数:
    L ( θ ) = ∏ i = 0 n p ( x i ; θ ) L(\theta) = \prod \limits_{i=0}^n p(x_i; \theta) L(θ)=i=0np(xi;θ)
    这里要特别注意,并非所有情况下似然函数都是以上形式,例如序列标注任务中的CRF,同样是似然函数但别人长得就不一样,具体形式要根据观测值的联合概率计算方式确定,只有各个观测值之间相互独立才会有以上形式的似然函数!!!

为了计算方便,不改变上述公式单调性的情况下使用等价的对数似然函数:
ln ⁡ L ( θ ) = ∑ i = 0 n p ( x i ; θ ) \ln L(\theta) = \sum \limits_{i=0}^np(x_i;\theta) lnL(θ)=i=0np(xi;θ)
求解参数时不再是求前面提到的等量关系方程,而是直接求 arg min ⁡ θ { ln ⁡ L ( θ ) } \argmin_{\theta} \{\ln L(\theta)\} θargmin{lnL(θ)}

极大似然的应用

极大似然是很多机器学习算法的损失函数:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值