极大似然估计法常常出现在机器学习算法的推导过程中,其使用场景或者说功能正是: 以已有样本、已有公式去估计参数,最大可能的那个参数。
这样来理解,极大似然估计法其实和机器学习算法的目标都是一样的。那么极大似然估计法如何来用呢?
(1)、写出已有公式: L(θ)。
(2)、对L(θ)取对数: ln L(θ)。 这一步的目的是将L(θ)中的连乘操作转化为连加。
(3)、对ln L(θ)求 关于θ的导数,设 d (ln L(θ)) / dθ = 0,求解得到的 θ即为最大可能的那个参数θ。
那么步骤看不懂怎么办?
(1)、L(θ)是什么?
虽然之前假设了是已有公式,但是在实际问题中这个公式必然是要自己定义的。
若第 i 个样本中 x 事件发生的概率假设为p,,则 L(θ) = ∏ p(xi) 。 (上面第二条所说的连乘就是这里的连乘符号)
(2)、照葫芦画瓢套公式没问题,那么和大数定律有什么关系?
简单理解一下大数定律:用部分的样本分布取拟合整体分布。(拿10000个人的性别分布去猜全世界人的性别分布)
在最大似然估计问题最开始就要提出假设,因为最大似然估计法用到的样本就是这部分样本,而问题是整体,所以就用到了大数定律。
(3)、中心极限定理来凑什么热闹?
中心极限定理和最大似然估计是没有直接联系的,它也是建立在大数定律的基础上。
简单理解一下中心极限定理:同一分布的样本的累加,会呈现出正态分布。(我抛硬币抛了无数次,那么(第一次)、(第一次和第二次)、(第一次和第二次和第三次)……这样的事件所发生的概率会呈现出正态分布)
对于最大似然估计法来说,往往遇到的问题就是这样可以应用于中心极限定理的问题,毕竟正态分布在生活中无处不在。。。