贝叶斯决策理论
一个数据集,分为两类,其中每个样本的分类我们都已知晓
一个新的点
(
x
,
y
)
(x, y)
(x,y),其分类未知。
按照什么方式来决定将这个点分到一类中呢?我们提出如下规则:
- 如果 p 1 ( x , y ) > p 2 ( x , y ) p_1(x,y)>p_2(x,y) p1(x,y)>p2(x,y),则 ( x , y ) (x,y) (x,y)为红色( p 1 p_1 p1)一类。
- 如果 p 2 ( x , y ) > p 1 ( x , y ) p_2(x,y)>p_1(x,y) p2(x,y)>p1(x,y),则 ( x , y ) (x,y) (x,y)为蓝色( p 2 p_2 p2)一类。
贝叶斯决策理论核心思想:选择具有最高概率的决策。
朴素贝叶斯分类
正式定义
- 设 x = x= x= { a 1 , a 2 , . . . , a m a_1, a_2,...,a_m a1,a2,...,am} 为一个待分类项, a i a_i ai为 x x x的每一个特征属性
- 有类别集合 C = C= C= { y 1 , y 2 , . . . , y n y_1, y_2,...,y_n y1,y2,...,yn}
- 计算 p ( y 1 ∣ x ) , p ( y 2 ∣ x ) , . . . , p ( y n ∣ x ) p(y_1|x),p(y_2|x),...,p(y_n|x) p(y1∣x),p(y2∣x),...,p(yn∣x)
- 如果 p ( y k ∣ x ) = m a x p(y_k|x)=max p(yk∣x)=max { p ( y 1 ∣ x ) , p ( y 2 ∣ x ) , . . . , p ( y n ∣ x ) p(y_1|x),p(y_2|x),...,p(y_n|x) p(y1∣x),p(y2∣x),...,p(yn∣x) },则 x ∈ x\in x∈ y k y_k yk
朴素贝叶斯假设:假设待分类项中所有特征属性相互条件独立
分母对于所有类别为常数,且各特征属性是条件独立的,故有:
拉普拉斯修正:为避免其他属性携带的信息被训练集中未出现的属性值“抹去”,在估计概率值时要进行“平滑”处理。
NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
理论上,NBC模型与其他分类方法相比具有最小的误差率。但事实上并非总是如此,因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。
自然语言讲究上下文,故假设中的相对独立一般不会存在。
但它仍是最常用、应用最广泛的分类算法之一
贝叶斯信念网
一些变量相关,另一些变量则相互独立
朴素贝叶斯是贝叶斯信念网的一个简单特例。