拉普拉斯平滑(Laplace Smoothing)
拉普拉斯平滑(Laplace Smoothing)又称为加 1 平滑,是比较常用的平滑方法。平滑方法的存在时为了解决零概率问题。
一、为什么要做平滑?
零概率问题:在计算事件的概率时,如果某个事件在观察样本库(训练集)中没有出现过,会导致该事件的概率结果是 0 。这是不合理的,不能因为一个事件没有观察到,就被认为该事件一定不可能发生(即该事件的概率为 0 )
二、理论支撑
为了解决零概率的问题,法国数学家拉普拉斯最早提出用加1的方法估计没有出现过的现象的概率,所以加法平滑也叫做拉普拉斯平滑。
假定训练样本很大时,每个分量x的计数加1造成的估计概率变化可以忽略不计,但可以方便有效的避免零概率问题。
三、公式
对于一个随机变量,它的取值范围是{1,2,3…,k},在m次试验过后的观测结果为 { z ( 1 ) , z ( 2 ) , z ( 3 ) . . . , z ( m ) } \{z^{(1)},z^{(2)},z^{(3)}...,z^{(m)}\} {z(1),z(2),z(3)...,z(m)},极大似然按照以下公式计算: ϕ = ∑ i = 1 m I { z i = j } m (1) \phi=\frac{\sum_{i=1}^mI\{z^{i}=j\}}{m}\tag{1} ϕ=m∑i=1mI{zi=j}(1) 使用Laplace平滑后,计算公式变为: ϕ = ∑ i = 1 m I { z i = j } + 1 m + k (2) \phi=\frac{\sum_{i=1}^mI\{z^{i}=j\}+1}{m+k}\tag{2} ϕ=m+k∑i=1mI{zi=j}+1(2)
总结
拉普拉斯平滑:分子加1,分母加K,K代表类别数目