输入空间 X⊆Rn 为 n 维向量的集合,输出空间
朴素贝叶斯的决策函数为:
模型的学习意味着估计 P(Y=ck) 和 P(X(j)=x(j)|Y=ck) . 可以使用极大似然估计(MLE)和最大后验概率估计(MAP)来进行参数估计.这里主要讨论极大似然估计。
1. 极大似然估计
极大似然估计适于“模型已知,参数未定”的情况. 已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。最大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。我们所估计的模型参数,要使得产生这个给定样本的可能性最大. 该方法通常有以下几个步骤:
- 写出似然函数
- 对似然函数取对数
- 求导数
- 解似然方程
其中最关键的一步在于列出似然函数。
2. 从变量 Y 的分布律出发构造似然函数
2.1 最简单的假设:变量
Y
服从伯努利分布
为简单起见,考虑二分类的情况,并假设变量 Y 服从伯努利分布。设
事件 yi 发生的概率是 P{
yi=t}=pti(1−p)1−ti . 设训练集中 c1 出现的次数为 d ,则
样本联合分布为:
把 L(y1,y2,...,yN;p) 看成是 p 的函数,称为参数
令 ∂lnL(p)∂p =0,可解得 p=dN ,即: