迁移学习我们经常可以看到边缘概率密度的概念,有点遗忘了,故总结一下。
全概率(由“因”导“果”,所以为什么不会是A和A补)
全概率的意义在于,直接求
十分困难,所以我们把事件
划分成小事件进行计算。这里注意并不是直接对
进行划分,而是对样本空间
进行划分:
. 每一个小事件
发生而导致
发生的概率全部加起来就是全概率公式
.而不是说
发生导致
发生的概率。
贝叶斯公式(条件概率)
由上面可以看出:
,
简单移项,就是贝叶斯公式。(佩服一下太厉害了真的,这都给他发现)
这里牵涉到一些概念。把上面的
换成
,
换成
. 那么
就是隐含变量,可以把它理解成模型的输出或者是label;
就是观察变量,可以理解成模型输入或者模型参数。
-
:先验概率 ,表示对一个随机变量概率的最初认识;
-
: 似然,又叫类概密(类条件概率密度),表示在承认先验的概率下另一个与之相关的随机变量的表现。比如是男生且身高为170的概率。在某些论文中(如JDA)解释了通过预测类概密来预测后验概率是可行的;
-
:后验概率。表示当拥有X这个条件后Y的概率.
这里也说明白了其实似然和概率其实是有一点区别的。简单理解为,在机器学习模型中,(后验)概率是为了值模型输出;而似然是指模型参数。
概率密度函数和边缘概率
边缘概率适合联合概率(eg: P(AB))对应的,单个变量如P(A),P(B)就是边缘概率。
在Transfer Learning 中,
就是特征空间,
就是边缘概率分布,就是特征分布。
如果
,
独立,那么
. 在迁移学习中这样就可能导致negative transfer。
边缘概率,联合概率,条件概率的关系:
相信到这里已经对似然有了一个初步的了解了,那么似然函数又是什么呢?
要写出似然函数,我们必须先知道随机变量的分布率(概率密度函数)。
很明显它是关于
(模型参数)的函数,我们所说的
Maximum likelihood estimation(最大似然估计法
)就是想在给定当前的模型参数下,出现事件
的概率。
举个例子,抛硬币正反面。出现正面的概率为
.通过5次实验,得出结果是:正反正正反。
那么似然函数就等于
.
我们希望这个概率是最大化(给定的事实最有可能实现,
应该取什么值?
)
接下来的操作就很简单了,总计一下:
- 写出似然函数。如果是离散型随机变量形式(如上面的例子),那么我们一般会做一个取对数处理,方便求导;
- 求导,令方程等于0;
- 解答。
补充:为什么直接求导进行了?显然似然函数是单调的。