贝叶斯参数估计的理解及其在电商算法中的应用

最新推荐文章于 2024-08-06 19:43:22 发布

阿拉丁吃米粉

最新推荐文章于 2024-08-06 19:43:22 发布

阅读量2w

点赞数 26

文章标签：贝叶斯估计参数估计机器学习贝叶斯风险共轭先验

本文链接：https://blog.csdn.net/jinping_shi/article/details/53444100

版权

本文深入介绍了贝叶斯参数估计的理论与应用，特别是其在电商算法中的作用。首先，文章阐述了极大似然估计与贝叶斯估计的区别，然后详细解释了损失函数、风险函数和贝叶斯风险的概念。接着，通过实例展示了如何利用先验知识最小化贝叶斯风险。最后，讨论了共轭先验在简化计算过程中的重要性，并给出了平方误差、绝对误差和均匀误差下的贝叶斯估计计算方法。

摘要由CSDN通过智能技术生成

极大似然估计

贝叶斯估计是参数估计中的一种方法，以贝叶斯思想为基础，而贝叶斯思想在机器学习中经常用到。机器学习中常涉及贝叶斯网络，最终的问题都是转化为参数求解。贝叶斯参数估计是这些问题的基础版本。前方高能预警，本文的讲解比较理论。

实际问题中我们会有很多数据，比如一篇文章中每个单词的词频等。我们得到的数据通常用 $X$ 表示，也称为样本。我们还会假设这些数据服从某一个分布，例如最常用的正态分布，这时可以将问题表示为 $\sim N(\mu, \sigma)$ ， $\mu$ 和 $\sigma$ 表示正态分布的两个参数。如果这两个参数已知，这个分布就确定了，从而可以知道数据 $X$ 的许多性质。这种情况下，参数估计就是要估计 $\mu$ 和 $s i g m a$ 的值。最常用的参数估计方法是极大似然（或最大似然估计）估计。

一般的最大似然法求解两个参数的基本步骤是：

假设每个样本 $X_i$ 是独立同分布（iid）的，即每一个样本都有 $X_i \sim N(\mu, \sigma)$ .
求所有样本 $X$ 的联合分布
因为是iid，所以 $X$ 的联合分布等于每个样本 $X_i$ 的概率密度函数的乘积，即：
$L(\mu, \sigma^2; \boldsymbol{x}) = f(\boldsymbol{x}) = \left(\frac{1}{\sqrt{2\pi\sigma^2}}\right)^n \exp\left\{-\sum_{i=1}^n \frac{(x_i - \mu)^2}{2\sigma^2}\right\}$
对上述联合分布的概率密度函数取对数，即：
$\ell(\mu, \sigma^2; \boldsymbol{x}) = \log L(\mu, \sigma^2; \boldsymbol{x}) = -\frac{n}{2}\log\left(2\pi\sigma^2\right) -\sum_{i=1}^n \frac{(x_i - \mu)^2}{2\sigma^2}$
对上述函数分别求 $\frac{\partial \ell}{\partial \mu}$ 和 $\frac{\partial \ell}{\partial \sigma^2}$ ，并令它们等于0，进而求得极值
分别对 $\mu$ 和 $\sigma^2$ 求二阶偏导，验证极值是最大值

上述步骤是极大似然法的求解步骤，用到的信息都是已知样本的信息。但是通常在估计参数时我们可能已经对参数有了一个大概的了解，比如已经知道 $\mu$ 和 $\sigma^2$ 的取值范围。仅仅知道取值范围还太简单，有时会更进一步假设 $\mu$ 和 $\sigma^2$ 的取值服从某个分布，这样问题就变成了在正态分布中，要估计期望 $\mu$ 和方差 $\sigma^2$ 的值，但与极大似然法不同的是，我们事先已经知道了 $\mu$ 和 $\sigma^2$ 的取值是服从某种分布的，这个信息如果不用到参数估计中有点浪费了，于是问题变成：如何将这两个参数的分布结合到参数估计过程中？ 贝叶斯估计解决了这个问题。

贝叶斯估计（Bayes Estimation）

上述提到的在估计参数之前对参数已经有了了解称为参数的先验知识。贝叶斯估计即在估计过程中将先验知识也考虑了进去，博众家之长总是好的。先验知识可以是一个具体的值，也可以是取值范围，也可以是一个函数（某种分布）。实际应用中，通常会将参数的先验知识视作一个分布，那么这个参数就会有一个概率密度函数（pdf），这个pdf叫做待估计参数的先验概率。

一般待估计的一维参数用 $\theta$ 表示，多维用粗体 $\boldsymbol{\theta}$ . 先验概率密度函数用符号 $\pi(\theta)$ 表示。样本的概率密度函数用 $f(x|\theta)$ 表示，其中加入 $\theta$ 是表示该pdf跟 $\theta$ 有关，同时说明要估计的参数是 $\theta$ .

参数估计必然会涉及到『损失』的概念，用于表示参数的估计值与真实值之间的差距。差距越小，损失越小，说明参数估计得约准确。

贝叶斯估计涉及到三个损失概念，他们长的很像：

损失函数（Loss Funcition）
风险函数（Risk Function）
贝叶斯风险（Bayes Risk）

贝叶斯估计的目的是：结合参数的先验知识，使得参数的估计值令贝叶斯风险达到最小。简单说就是最小化贝叶斯风险。

下面解释这三个概念。

损失函数

在参数估计问题中，评价估计的好坏就是看估计出来的参数与真值的差距有多小。估计出来的参数通常用 $\hat{\theta}$ 表示，参数的真值用 $\theta$ 表示。 $\theta$ 与 $\hat{\theta}$ 的差距就是损失函数。

损失函数有好几种定义方式，常见的如下：

$L(\hat{\theta}, \theta) = (\hat{\theta} - \theta)^2$
$L(\hat{\theta}, \theta) = |\hat{\theta} - \theta|$
$\begin{aligned} L(\hat{\theta}, \theta) = \begin{cases} 0 &\text{if $|\theta - \hat{\theta}| \leqslant \Delta$} \\ 1 &\text{if $|\theta - \hat{\theta}| > \Delta$} \end{cases} \end{aligned}$

当估计值与真实值无限接近时，损失函数都会无限接近0，相当于没有损失。损失函数中的估计值 $\hat{\theta}$ 是通过样本计算出来的。比如正态分布中的 $\mu$ ，我们可以用样本均值来估计 $\mu$ （即将样本均值当成 $\mu$ ），即 $\hat{\mu} = \frac{1}{n}\sum^n X_i = \bar{\boldsymbol{X}}$ 。类似地，也常用样本方差来估计 $\sigma^2$ . 但是注意到 $\hat{\mu}$ 和 $\hat{\sigma}^2$ 的值都跟样本的个数有关，即都跟 $n$ 有关。如果 $\frac{1}{n}\sum_{i=0}^n X_i$ 是 $\mu$ 的估计值，那 $\frac{1}{n-1}\sum_{i=0}^{n-1} X_i$ 是 $\mu$ 的估计值吗？那 $\frac{1}{n-6}\sum_{i=0}^{n-6} X_i$ 呢？可以看到 $n$ 不一样，估计值也不一样，到底用哪个 $n$ （用多少个样本）来计算损失函数呢？这时容易（其实不容易）想到，既然损失函数可以因为 $\hat{\theta}$ 的不同而有不同的值，那就求平均。通过判断损失的平均值的大小来判断参数估计得好不好。求平均是很自然的想法，但平均通常是相对样本来说的，如果是总体，我们通常说期望。这时就要引入风险函数了。