贝叶斯公式
其中,P(w|D)为后验概率,在已知结果D的情况下来预测参数w。
P(D|w)为似然函数,它表示在不同的参数向量w下,观测结果出现的可能性大小。
P(w)是先验概率。
用自然语言来表示贝叶斯公式就是:
贝叶斯思想
频率学观点和贝叶斯观点
频率学观点也叫传统观点,依靠对“事件”本身建模来说明概率,在这之前,他们认定的一个前提是所有事件都是随机的,然后通过独立重复的实验来说明概率。比如一枚硬币抛下来正面朝上或者反面朝上的概率,“正面朝上”、“反面朝上”两个事件的都是随机的,然后重复实验,求概率极限。
贝叶斯思想是从“观察”角度来预测概率的。他们并不认定所有事件都是随机的,况且很多情况下实验室不能重复的。比如计算南极冰雪在N年内融化完毕的概率,贝叶斯没有把10年、20年或者是30年内融化完的概率当成随机,而且这个实验无法重复,这个时候,贝叶斯引入了一个叫“先验概率”的东西,比如我们知道了冰雪融化的速度? 试想一下,千百年后的人类,发现南极是没有冰雪的,但历史上有。聪明的他们要估计南极冰雪是多少年内融化完的?
似然函数(likelihood function)在频率学观点和贝叶斯观点中都起着非常重要的作用。
先看它的官方定义
x表示样本值,θ表示参数
说白了,似然函数就是接近样本的程度。而最大似然,就是让模型最大可能性的接近样本时,求θ的取值
但千万不要把似然函数和密函函数混为一谈,前者是θ的函数,后者是x的函数,两个东西呢!
(还记得曲线拟合吗?没错,||y-wx||2 就是最大似然估计,让模型wx最大程度接近样本y,最小化误差函数,所以最大似然的结果竟然是过拟合,因为只有过拟合模型才能穿过所有的样本点。)
从数学上说就是,似然函数的负对数就叫做最小误差函数,最大化似然函数就等于最小化误差函数。