1.背景及定义
概率模型的训练过程就是参数估计,确定好了参数也就训练好了模型。
统计学对于参数估计主要分成两个部分,频率主义学派和贝叶斯学派,其中频率主义学派认为参数是客观固定的未知常量,他们主要通过优化似然函数等准则来确定参数量;而贝叶斯学派则认为参数是随机变量,本身具有分布,他们假定参数服从一个先验分布,然后基于观测到的数据来计算参数的后验分布。
极大似然估计是频率主义学派的内容,它的目的就是估计出频率主义学派中认定的未知常量。
极大似然估计的主要思想是利用已知的样本来求出最大概率出现这种情况的参数,即根据数据采样来估计概率分布参数。
2.使用前提
- 样本量充足
- 样本之间独立同分布
- 训练样本分布能够体现样本真实分布
3.运用
记样本集:,样本间独立同分布,令数据集表示训练集中第类样本组成的集合。
那么对于数据集的似然函数(likelihood function)为:
而极大似然估计就是在的所有可能取值中,找到一个能使数据出现的“可能性”最大的情况。
一般连乘操作容易造成下溢,通常使用对输入似然(log-likelihood):
此时参数的极大似然估计为:
4.求解步骤
- 写出对数似然函数
- 求导(若不连续,则从极大似然估计的定义出发,寻求的最大值)
- 得到