《每天解决一个知识点系列》
估计能翻到这一页博文的盆友都是行走在机器学习/数据挖掘的路上吧,自学之路真的苦不堪言,于是下定决心把自己学到的知识点记下来,和初入机器学习之坑的基友们一起显摆显摆。话不多说,我将从一个小白的角度解读一下我对极大似然估计的理解(我比较喜欢这样叫,但为了学习方便,我采取官方说法),各位看官请往下看。
-------------------------------我是羞羞的分割线-------------------------------------
我是比较喜欢概率论的东西,对于最大似然估计的概念大家可以通俗理解为用观察去猜测真实概率。比如给定一组观察得到的样本数据X,我们无法知晓这个随机变量(其实是某个事件发生的属性值,它有多重取值可能)真实的概率分布函数是怎样的。这时候我们希望通过收集到的样本数据去猜哪个参数会影响分布函数使得最终呈现出我们观察到的这些样本。
不过,我们聪明的统计学家已经为我们观察到了复杂世界存在的各种概率分布情况及其对应的计算公式,如“正态分布”、“二项分布”、“泊松分布”等。但细心的同学们一定会发现这些所谓的分布发生的概率是有规律的,有各自的计算公式,如假设随机事件X服从均值为µ,方差为σ2 的正态分布函数,那么事件X发生的概率如下:
![](https://i-blog.csdnimg.cn/blog_migrate/fde0ac551fad485ff6d698bc677a63f5.png)
但我们是不知道如何参数µ和σ是多少的,这时候就需要从样本中去估计了。于是可以下一个结论,最大似然估计的意思就是在已知观测数据X,参数θ未知的情况下求使出现该观测样本的概率值最大化,再反过来求解对应的参数值θ。说白了就是让