一、概率密度函数
概率密度函数是随机变量的函数,它是描述随机变量的输出值在某个取值点附近出现的可能性的函数。
二、最大似然估计
最大似然估计是机器学习中最常用的参数估计方法之一。在建模过程中,似然函数描述在不同的模型参数下真实数据发生的概率,它是关于模型参数的函数。
最大似然估计就是寻找最优参数(以正态分布为例,待求参数为均值和方差),使观测数据发生的概率最大、统计模型与真实数据最相近。
三、举例直观说明
以在黑箱里摸球为例比较一下概率密度函数与最大似然估计。
3.1概率密度函数
已知箱子里有3个黑球、4个白球,不放回的摸两次。那么摸到2个白球的可能性是
共有{一黑一白,两黑、两白}三种可能结果,将每种结果出现的概率计算出来,则得到离散序列的概率密度函数。
3.2最大似然估计
似然估计是根据观察到的结果来推测箱子里面球的分布情况,即“已知结果,反推原因”
假设进行了一次实验,观察结果为{2白},根据此结果来估计箱内有几黑几白。将箱内的白球个数用表示,实验结果用X表示:X={X1:摸到的第一个球为白球;X2:摸到的第二个球为白球}。则似然函数为
最大似然估计就是寻找最优参数使观测数据出现的概率最大,也就是使似然函数最大化。
四、高斯分布的概率密度函数及似然函数
一维正态分布的概率密度函数为
随机变量X服从正态分布
如果有n个可观察样本(可以理解为离散信号的点数),根据最大似然函数的公式有:
因为似然函数和条件概率形式相同,只不过自变量不同。所以摘了维基百科上的解释: