为什么要有平滑技术
P((“我”,“司”,“可”,“办理”,“正规发票”)|S)=
P(“我”|S)P(“司”|S)P(“可”|S)P(“办理”|S)P(“正规发票”|S)
假如在训练集中我们发现正规发票从来没有出现过,那么P(“正规发票”|S)=0,那么整个概率相乘就变成了0,那么为了解决这个问题,我们使用平滑技术。
拉普拉斯平滑(平滑技术)
针对于不同的模型,拉普拉斯平滑有不同的方法
伯努利模型
多项式模型的拉普拉斯的举例:
每封垃圾邮件中所有词出现次数(计算重复次数)的总和+被统计的词表的词语数量
被统计的词表的词语数量是这样计算的:
原始训练集中每封邮件词的个数(不重复)+测试集中词的个数(预测邮件)
总之就是训练集和测试集的所有词(去重)
举例来说: