不知道大家想过怎么一个问题没有,我们都知道是上帝创造了一切,而谁创造了上帝呢?我们今天探讨的就类似于这么一个问题。我们一直都在那里聊一个模型有一个参数,这个参数通过某种方式去来得到它估计它,那么这个参数又受什么东西来控制呢?我们不断地去来做这么一个东西就得到了贝叶斯网络。第一个我们可以建立一个高斯朴素贝叶斯的模型来对任何我们想做的东西进行建模,然后做估计,比如我们认为鸢尾花数据是服从高斯的朴素贝叶斯的模型的,我们就可以去来对这么一个东西建模。
不知道大家还记不记得相对熵这么一个概念:
p是一个随机变量,q是一个随机变量,这两个随机变量或者是概率密度我们总能去求它的相对熵的,而相对熵其实可以认为是后面这个东西求期望的一个结果,而这个结果其实可以度量两者的距离,并且这两个距离是不对称的。我们其实是可以通过相对熵来去定义这个互信息的:
还记得我们在极大似然估计里边谈到的一个概念MLE吗?就是说我们如果如果根据这个贝叶斯公式P(A|D)这么个东西求概率就能推导出这么个东西,我们一般怎么去来推导这个事情呢?如果说我们再来给定样本看看能够根据样本得出哪些结论,推出了A1,A2,……,An若干条结论,哪个结论是最有可能的正确结论,然后呢我们就算一下这个概率,这个概率,一直算到它的概率,然后选取其中最大的一个作为最后的结论。然后再带入得到这么一个东西:
我们知道这个D是样本那么什么是P(D)呢?就是样本的概率,它是一个固定值因此把它扔了就是了。就只剩下分子部分,我们来做一个大胆的假定,认为P(Ai)的值是近似的相等的,也就是P(A1),P(A2)一直到P(An)它们的值近似相等,再求它们俩的乘积谁大谁小,也就意味着求这么个东西谁大谁小:P(D|Ai)。最后就把求P(Ai|D)的最大变成了求P(D|Ai)的最大。我们用极大似然估计做的就是这么一个东西,取什么样的参数的时候能够使得它的概率最大,那个参数就是我们最后估计的结果。这不就是极大似然估计嘛,所以说极大似然估计其实假定了任何一组参数取到的概率相等或者近似相等。所以现在引出这么一个题目: