什么是拉普拉斯平滑
在计数中加上一个平滑项1(也可以是一个给定的K值)
拉普拉斯平滑公式
Wi
:第i个单词
P(Wi)
:第i个单词出现的概率
C(Wi)
:第i个单词在文本中出现的次数
C(Wi-1 Wi)
:Wi和Wi-1在文本中同时出现的次数
V
:特征值的个数
∑wC(w)
:所有数据集的个数
为什么要引入
在n-gram中计算词出现的概率时,有时会因为数据量不够而导致某些特征值没有出现,由于它们为0会对概率计算造成很大的影响,因此使得每一个计数中加上K,使得所有词对应的概率都大于0。
举例
根据天气,风力,心情来判断是否适合出门
天气的特征值有「太阳、下雨、阴天」
风力的特征值有「大、小」
心情的特征值有「好、坏」
是否出门的特征值有「是、否」
天气 | 风力 | 心情 | 是否出门 |
---|---|---|---|
太阳 | 大 | 好 | 否 |
下雨 | 小 | 好 | 是 |
太阳 | 小 | 好 | 是 |
阴天 | 大 | 坏 | 否 |
太阳 | 大 | 坏 | 否 |
下雨 | 大 | 好 | 是 |
P(出门|太阳 and 小 and 好)
=(P(太阳 and 小 and 好|出门)*P(出门))/P(太阳 and 小 and 好)
=P(太阳|出门)* P(小|出门)* P(好|出门)* P(出门)/P(太阳)* P(小)* P(好)
C(Wi) | 结果 |
---|---|
C(太阳) | 3 |
C(阴天) | 1 |
C(下雨) | 2 |
C(大) | 4 |
C(小) | 2 |
C(好) | 4 |
C(坏) | 2 |
使用拉普拉斯平滑之后的概率
P(太阳|出门)=2/6
P(小|出门)=3/5
P(好|出门)=4/5
P(出门)=4/8
详细理解,请参考知乎
理解朴素贝叶斯分类的拉普拉斯平滑