朴素贝叶斯
1. 概述
- 通过计算不同独立特征的条件概率实现分类
优点:在数据较少的情况下仍然有效,可以处理多类别问题。
缺点:对于输入数据的准备方式较为敏感。
适用数据类型:标称型数据。
2. 实现
- 贝叶斯准则计算条件概率
已知 p ( c ∣ x ) p(c \mid x) p(c∣x),求 p ( x ∣ c ) p(x \mid c) p(x∣c),计算方法如下:
p ( c ∣ x ) = p ( x ∣ c ) p ( c ) p ( x ) p(c \mid x)=\frac{p(x \mid c) p(c)}{p(x)} p(c∣x)=p(x)p(x∣c)p(c)
对于数据点分类别的例子来说, x x x代表的是数据点 ( x , y ) (x,y) (x,y), c c c即为数据点的类别,具体应用贝叶斯准则可得到:
p ( c i ∣ x , y ) = p ( x , y ∣ c i ) p ( c i ) p ( x , y ) p\left(c_{i} \mid x, y\right)=\frac{p\left(x, y \mid c_{i}\right) p\left(c_{i}\right)}{p(x, y)} p(ci∣x,y)=p(x,y)p(x,y∣ci)p(ci)
p ( c i ∣ x , y ) p\left(c_{i} \mid x, y\right) p(ci∣x,y)是给出的数据点 ( x , y ) (x,y) (x,y)在类别 c i c_{i} ci中的概率
p ( x , y ∣ c i ) p\left(x, y \mid c_{i}\right) p(x,y∣ci)为类别 c i c_{i} ci中取出数据点 ( x , y ) (x,y) (x,y)的概率
p ( c i ) p\left(c_{i}\right) p(ci)为类别 c i c_{i} ci在所有类别中的概率
p ( x , y ) p\left(x, y\right) p(x,y)为数据点 ( x , y ) (x,y) (x,y)在所有数据点中的概率 - 使用条件概率来分类:
根据上面的定义- 如果 p ( c 1 ∣ x , y ) > p ( c 2 ∣ x , y ) p\left(c_{1} \mid x, y\right) > p\left(c_{2} \mid x, y\right) p(c1∣x,y)>p(c2∣x,y),属于类别 c 1 c_{1} c1
- 如果 p ( c 1 ∣ x , y ) < p ( c 2 ∣ x , y ) p\left(c_{1} \mid x, y\right) < p\left(c_{2} \mid x, y\right) p(c1∣x,y)<p(c2∣x,y),属于类别 c 2 c_{2} c2
- 根据现实情况修改分类器
- 在书上判断文本的例子中,用向量 w w w表示之前的 ( x , y ) (x,y) (x,y),计算 p ( c i ∣ w ) p\left(c_{i} \mid w\right) p(ci∣w)时,将 w w w作为独立个体,那么概率可以写成 p ( w 0 , w 1 , w 2 ⋅ ⋅ ⋅ w N ∣ c 1 ) \mathrm{p}\left(\mathrm{w}_{0}, \mathrm{w}_{1}, \mathrm{w}_{2} \cdot \cdot \cdot \mathrm{w}_{\mathrm{N}} \mid \mathrm{c}_{1}\right) p(w0,w1,w2⋅⋅⋅wN∣c1),也就是说可以用 p ( w 0 ∣ c i ) p ( w 1 ∣ c i ) p ( w 2 ∣ c 1 ) … p ( w N ∣ c i ) \mathrm{p}\left(\mathrm{w}_{0} \mid \mathrm{c}_{\mathrm{i}}\right) \mathrm{p}\left(\mathrm{w}_{1} \mid \mathrm{c}_{\mathrm{i}}\right) \mathrm{p}\left(\mathrm{w}_{2} \mid \mathrm{c}_{1}\right) \ldots \mathrm{p}\left(\mathrm{w}_{\mathrm{N}} \mid \mathrm{c}_{\mathrm{i}}\right) p(w0∣ci)p(w1∣ci)p(w2∣c1)…p(wN∣ci)来计算上述概率
- 同时在程序设计时,把概率值初始为非零值,同时采用自然对数处理概率值,函数 f ( x ) f(x) f(x)与 l n ( f ( x ) ) ln(f(x)) ln(f(x))的曲线特征类似,可以很好的解决数据下溢或者浮点数舍入导致的错误
3. 总结
- 对于分类而言,使用概率有时要比使用硬规则更为有效。贝叶斯概率及贝叶斯准则提供了一种利用已知值来估计未知概率的有效方法
- 朴素贝叶斯只是在简单的假设下的一种有效分类器,是通过特征之间的条件独立性假设,降低对数据量的需求