【机器学习】拉普拉斯平滑
一、提出原因(背景)
在某些场景,如文本分析中,计算某词的概率,可能会因为训练集中从没出现过这个词,而认为该词概率为0,并将影响后续计算。
为解决零概率问题,法国数学家、物理学家拉普拉斯提出了拉普拉斯平滑。
二、思想及举例
拉普拉斯平滑,又叫加一平滑,它对分子划分的计数加1,分母加类别数。
例如,已知一维变量分布的采样结果,变量为A,A的取值有三种情况:a1,a2,a3,现有样本集{ a1, a2, a1, a2, a3, a1, a1, a2},采用拉普拉斯平滑计算三种取值的概率。
P(A=a1) = (4+1)/(8+3) = 5/11
P(A=a2) = (3+1)/(8+3) = 4/11
P(A=a3) = (1+1)/(8+3) = 2/11
又如