贝叶斯分类器
贝叶斯判定准则:对每个样本x,选择能使后验概率P(c | x) 最大的类别标记
然而,在现实任务中这通常难以直接获得,所以机器学习所要实现的是基于有限训练样本集尽可能准确地估计出后验概率P(c | x)
策略通常有如下两种:
给定x,可通过直接建模P(c | x) 来预测c,这样得到的是判别式模型。(如决策树、BP神经网络、支持向量机)
也可先对联合概率分布P(c ,x) 建模,然后再由此获得P(c | x) ,这样得到的是生成式模型。
朴素贝叶斯分类器
核心思想:根据“确定分类标签的前提下,得到样本x的概率”进行判断是哪一个类。
平滑处理(smoothing):如果训练样本中“好瓜”里没有出现“青绿瓜”,那么P(青绿|好)=0,即使其他特征都倾向于“好瓜”,那么最终的(连乘)结果也会等于0。所以需要进行平滑处理,进行拉普拉斯修正。
拉普拉斯修正:N代表一共有多少个分类,c是其中一个
P ( c ) = ∣ D c ∣ + 1 ∣ D ∣ + N P\left ( c \right ) = \frac{\left | D_c \right |+1}{\left | D \right |+N} P(c)=∣D∣+N∣Dc∣+1
现实任务中朴素贝叶斯分类器有多种使用方式:
1.对速度有要求,预训练好然后直接查表
2.数据流动性大,进行“懒惰学习”先不进行任何训练,待收到预测请求时再根据当前数据集进行概率估值