拉普拉斯平滑
背景:为什么要做平滑处理?
.
解决 零概率问题,若某个量x,训练集中未出现,会导致整个实例概率结果是0。但不合理。
应用:文本分类中,某词语未在训练集中出现,该词语概率为0,连乘计算文本概率为0,不合理。不能因为没有观察到就认为该事件的概率是0。
拉普拉斯=加法平滑,解决零概率问题。(分子+1) / (分母+1)
应用举例
假设在文本分类中,有3个类,C1、C2、C3。词语K1,各个类中观测计数分别为0,990,10。
未平滑前:K1的概率为0,0.99,0.01,
拉普拉斯平滑后:1/1003 = 0.001,991/1003=0.988,11/1003=0.011
在实际的使用中也经常使用加 lambda(1≥lambda≥0)来代替简单加1。如果对N个计数都加上lambda,这时分母也要记得加上N*lambda。