4个变量去计算今天打不打网球
1. 枚举,列出情况,计算每种情况概率:参数53种,但是样本只有14种,算不了
Naives bayes assumption
- 只需刻画d个1维随机分布,kd个参数,明显小于指数情况
参数空间
一系列计算后:离散情况下(MLE退化成数个数)
(这里漏东西了)
离散——分类边界线性
so 连续情况下还是线性的吗??——二次的
缺点:
- 要求太强了:要求所有分量条件独立
例子:垃圾邮件过滤
最后两行:无论是否垃圾邮件,后验概率都为0,导致后验分类为0,搞不定
solution2:直接删掉never appeared
continuous
如果不进行这么严的假设?
—— LDA;QDA