先验概率和后验概率_概率(probability) 与似然(likelihood)

迁移学习我们经常可以看到边缘概率密度的概念,有点遗忘了,故总结一下。

全概率(由“因”导“果”,所以为什么不会是A和A补)

全概率的意义在于,直接求

十分困难,所以我们把事件
划分成小事件进行计算。这里注意并不是直接对
进行划分,而是对样本空间
进行划分:
. 每一个小事件
发生而导致
发生的概率全部加起来就是全概率公式
.而不是说
发生导致
发生的概率。

贝叶斯公式(条件概率)

由上面可以看出:

,

简单移项,就是贝叶斯公式。(佩服一下太厉害了真的,这都给他发现)

7dceee105e4233897a8bdd7d6503f7f9.png

这里牵涉到一些概念。把上面的

换成
换成
. 那么
就是隐含变量,可以把它理解成模型的输出或者是label;
就是观察变量,可以理解成模型输入或者模型参数。

  • :先验概率 ,表示对一个随机变量概率的最初认识;
  • : 似然,又叫类概密(类条件概率密度),表示在承认先验的概率下另一个与之相关的随机变量的表现。比如是男生且身高为170的概率。在某些论文中(如
    JDA)解释了通过预测类概密来预测后验概率是可行的;
  • :后验概率。表示当拥有X这个条件后Y的概率.

这里也说明白了其实似然概率其实是有一点区别的。简单理解为,在机器学习模型中,(后验)概率是为了值模型输出;而似然是指模型参数。

概率密度函数和边缘概率

边缘概率适合联合概率(eg: P(AB))对应的,单个变量如P(A),P(B)就是边缘概率。

在Transfer Learning 中,

就是特征空间,
就是边缘概率分布,就是特征分布。

如果

独立,那么
. 在迁移学习中这样就可能导致negative transfer。

边缘概率,联合概率,条件概率的关系:

5758110303578bb3d1d7be834b0d25fb.png

相信到这里已经对似然有了一个初步的了解了,那么似然函数又是什么呢?

要写出似然函数,我们必须先知道随机变量的分布率(概率密度函数)。

b9861d3ad4b22b264a1956cbed45052d.png
离散型随机变量的似然函数。如果是连续性变量,那么就是求积分。

很明显它是关于

(模型参数)的函数,我们所说的
Maximum likelihood estimation(最大似然估计法 )就是想在给定当前的模型参数下,出现事件
的概率。

举个例子,抛硬币正反面。出现正面的概率为

.通过5次实验,得出结果是:正反正正反。

那么似然函数就等于

.
我们希望这个概率是最大化(给定的事实最有可能实现,
应该取什么值?
)

接下来的操作就很简单了,总计一下:

  1. 写出似然函数。如果是离散型随机变量形式(如上面的例子),那么我们一般会做一个取对数处理,方便求导;
  2. 求导,令方程等于0;
  3. 解答。

补充:为什么直接求导进行了?显然似然函数是单调的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值