似然与概率

最新推荐文章于 2024-08-26 14:34:29 发布

xiangz201

最新推荐文章于 2024-08-26 14:34:29 发布

阅读量1.1k

点赞数 1

分类专栏： DL ML

本文链接：https://blog.csdn.net/weixin_43379058/article/details/116230197

版权

DL 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

这篇博客探讨了概率和统计的区别，以及在神经网络模型中的应用。似然是已知数据求参数，而概率则是已知参数求数据。最大似然估计（MLE）用于在大量数据中估计模型参数，而最大后验概率估计（MAP）则考虑了先验知识，适用于数据量较小或有特定先验信息的情况。MAP通过贝叶斯公式结合先验概率来调整参数估计。合理的先验概率假设在MAP中至关重要。

摘要由CSDN通过智能技术生成

论文中经常出现似然（likehood），在这片文章中总结一下有关概念。

概率的概念和统计的概念

概率的概念就是已知模型参数去推结果。
统计的概念就是已知结果去推模型参数。在神经网络模型中，就都是推参数的过程，也就基本都是统计的概念。

参数与数据

神经网络模型的重要两个部分就是参数与数据。
参数指模型的数学特性，也就是数学公示中的变量前的α，β等，再深度学习模型中是如CNN的kernel，FC的w_ij，正态分布的均值与方差之类的值。数据则是数学公式中的自变量和因变量，在深度学习模型中则是我们的输入数据input和估计值pred。
深度学习模型要做的事就是从数据去估计模型的参数，这就引出了似然的问题。

似然（likehood）和概率（probability）

概率就是已知参数求数据， $P(X|\theta)$ 。形象举例，从A市到B市有很多路，我们知道每条路，去计算到达B市的概率。
似然就是已知数据求参数， $P(\theta|X )$ 。形象举例，只知道已经从A市到达B市了，去估计到底是走那条路怎么到达的。

概率函数和似然函数

概率函数， $P(X|\theta)$ 。已知参数求解的数学问题，带入公示即可，就不再讲述。
似然函数， $P(\theta|X )$ 。已知结果求参数的函数，这是一个没有确定的解的过程，我们只能尽可能地逼近真实解，也就引出了这个参数是什么样的才最有可能导致这个结果的问题，即最大似然估计。
由于计算往往是指数乘积的形式，因此通常情况下使用log对似然函数进行处理，也就是很多论文中出现的log likehood.

对于概率看法不同的两大派别频率学派

这部分内容节选自知乎的一篇文章极大似然估计与最大后验概率估计

频率学派认为世界是世界是确定的。模型参数是个定值，希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法-极大似然估计（MLE），这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。
贝叶斯派认为世界是不确定的，假设对世界先有一个预先的估计，然后通过获取的信息来不断调整之前的预估计。他们认为模型参数源自某种潜在分布，希望从数据中推知该分布。对于数据的观测方式不同或者假设不同，那么推知的该参数也会因此而存在差异。这就是贝叶斯派视角下用来估计参数的常用方法-最大后验概率估计（MAP），这种方法在先验假设比较靠谱的情况下效果显著，随着数据量的增加，先验假设对于模型参数的主导作用会逐渐削弱，相反真实的数据样例会大大占据有利地位。极端情况下，比如把先验假设去掉，或者假设先验满足均匀分布的话，那她和极大似然估计就如出一辙了。

最大似然估计(Maximum Likelihood Estimate,简称MLE)

MLE是求使 $P(\theta|X )$ 最大的 $\theta$ 。可以这样理解，结果已经发生，那么就要寻找使得结果最有可能发生的 $\theta$ 。这是一个求极值的问题，即求 $\nabla_\theta log P=0$ 。概率论中有相关公示，这里就不再列出。

最大后验概率估计(Maximum A Posteriori estimation,简称MAP)

首先讲一下先验概率和后验概率。
先验概率是指根据以往经验和分析得到的概率。
比如扔硬币50%朝上，这是我们的经验或者主观认识，这在大多数情况（这也就是概率学派适用的大量数据情况）下是对的。

后验概率是根据结果去修正的概率。
比如我们做实验发现扔硬币70%朝上，根据这个结果去修正扔硬币朝上的概率。这是有可能的，如硬币不均匀，破损，没有人能确定硬币的质量状态，我们只能先假设硬币是好的，抛起向上50%，然后根据结果70%来调整假设（也就是贝叶斯学派的先验假设）。
首先他是依赖于先验概率的，然后他根据结果对先验概率进行调整。
可用贝叶斯公示进行计算。如B是结果，A是先验知识， $P(A_j|B)$ 是后验概率，

$P(A_j|B)=\frac{P(B|A_j)*P(A_j)} {P(B)}=\frac{P(B|A_j)*P(A_j)} {\sum_{i=1}^nP(B|A_i)P(A_i)}$

我们知道贝叶斯派认为世界是不确定的，因此这种根据结果来调整先验概率的思想就很自然了。

最大后验概率估计
$\mathop {argmax}_{\theta}P(\theta|X)=\mathop {argmax}_{\theta}\frac{P(X|\theta)P(\theta)}{p(X)}$
由于X是确定的， $P (X)$ 确定的，MAP就转为优化 $\mathop {argmax}_{\theta}P(X|\theta)P(\theta)$

从贝叶斯学派的角度思考，参数估计要考虑先验知识（我们假设的参数 $\theta$ ）的概率的，MAP中就考虑了 $P(\theta)$ ，最大化的对象从 $P(\theta|X)$ 变成了 $P(\theta|X)P(X)$ 。
因此合理的先验概率假设是很重要的，我们需要去人为的假设参数的大致分布。