朴素贝叶斯分类是一种生成式分类
p(y|x) = p(y,x) / p(x)
=p(x|y) * p(y) | p(x)
在训练的时候假设x的所有特征是相互独立的,所以p(x|y) = 所有p(xi | y) 的乘积 只要通过贝叶斯展开+有xi独立 就能得到
这个模型里的参数就是,给定y这个条件下,生成某个特征xi的概率(),以及y本身的分布(使用中心极限定理得到均值就能作为估计)
这里存在一个问题,就是如果在所有样本里,某个特征xi没出现过,那么根据中心极限定理得到均值就是0
那么最后的乘积就是0
这个结果对于实际来说不太合理,对于训练样本中没出现过的特征,实际的测试的时候,也是有可能出现
所以需要做 拉普拉斯平滑
就是在用中心极限定理得到均值 的时候 分子分母同时加上一个数,这样每个特征的条件概率肯定不为0了
一般分子加1,分母加的是 分类数