优化、参数估计与机器学习的关系

最新推荐文章于 2024-01-05 00:57:00 发布

三七、

最新推荐文章于 2024-01-05 00:57:00 发布

阅读量987

点赞数 1

分类专栏：基础学习文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/geek_hch/article/details/107372198

版权

基础学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

优化

优化问题，首先有一个优化目标，然后是有计算公式/函数/模型。机器学习中的优化目标就是损失函数。
这之后，优化可以简单的理解为最小化/最大化我们的目标函数（高数中求极值），一般是通过更新函数或模型中的参数来实现优化过程。

参数估计

统计量

统计量指的是均值 $E (x)$ 、方差 $S (x)$ 等。

什么是参数估计

当随机变量 $X$ 的真实分布未知时，使用 $X$ 的样本来估计总体参数。参数估计分为如下两类：

点估计：通过样本来估计总体分布函数中未知参数的值
区间估计：估计总体分布中未知参数的区间，并给出这个区间对应的置信度

这里主要总结点估计。点估计的基本思想包括以下几步（注意这里是已知 $X$ 的分布形式，但不知道其中的部分参数。例如位于伯努利分布 $\theta) = b(1, \theta)$ 、正态分布 $\theta) = N(\theta_1, \theta_2)$ ，以及深度学习模型 $\boldsymbol{\theta})$ 等。）：

根据待求参数以及总体分布函数形式，构造一个适当的统计量作为参数的估计量 $\hat{\theta}(X_1, X_2,\cdots,X_n)$ ，这个统计量可以是总体分布的一阶矩、二阶矩、方差、似然函数等。注意这里估计量是样本的函数，选取的样本不同，函数值不同，即参数估计值不同，样本足够大时，估计值就可以作为总体分布参数的近似值。
根据观测样本，根据步骤1中选择的统计量计算出对应的统计量观测值
使用如下等量关系建立方程，解这个方程就能得到待估计的参数值。
$分布函数公式计算得到的统计量（\theta的函数）$
估计量的选择标准：无偏性和有效性。

点估计的两种方法

以下两种方法的区别在于估计

矩估计：使用一阶矩和二阶矩作为估计量依据：样本矩依概率收敛于总体矩。
最大似然：使用一个样本中各个观测值的联合概率，即似然函数作为估计量依据：一个样本，是当前总体分布参数下概率最大的观测值。似然函数：
$L(\theta) = \prod \limits_{i=0}^n p(x_i; \theta)$
这里要特别注意，并非所有情况下似然函数都是以上形式，例如序列标注任务中的CRF，同样是似然函数但别人长得就不一样，具体形式要根据观测值的联合概率计算方式确定，只有各个观测值之间相互独立才会有以上形式的似然函数！！！