1.朴素贝叶斯分类器核心思想
朴素贝叶斯分类器的核心思想是:条件独立性假设,为了方便计算
2.条件独立性假设
条件独立性假设用如下图表述,是一个简单的有向图,就是在y确定的条件下,
x
i
与
y
i
独
立
x_i与y_i独立
xi与yi独立
用数学表达:
x
i
⊥
x
j
∣
y
;
其
中
i
≠
j
(1)
x_i \perp x_j |y;其中i≠j \tag{1}
xi⊥xj∣y;其中i=j(1)
一定是在y存在的情况下,
x
i
独
立
于
x
j
x_i独立于x_j
xi独立于xj;
X
=
(
x
1
,
x
2
,
⋯
,
x
p
)
T
,
朴
素
贝
叶
斯
分
类
器
主
要
是
说
明
在
一
个
数
据
X
里
面
的
特
征
向
量
x
i
和
x
j
相
互
独
立
X= (x_1,x_2,\cdots,x_p)^T,朴素贝叶斯分类器主要是说明在一个数据X里面的特征向量x_i和x_j相互独立
X=(x1,x2,⋯,xp)T,朴素贝叶斯分类器主要是说明在一个数据X里面的特征向量xi和xj相互独立
根据贝叶斯公式可以得:
p
(
y
∣
x
)
=
p
(
x
∣
y
)
p
(
y
)
p
(
x
)
=
p
(
x
,
y
)
p
(
x
)
∝
p
(
x
,
y
)
(2)
p(y|x)=\frac{p(x|y)p(y)}{p(x)}=\frac{p(x,y)}{p(x)}\propto p(x,y) \tag{2}
p(y∣x)=p(x)p(x∣y)p(y)=p(x)p(x,y)∝p(x,y)(2)
3.贝叶斯分类器的模型构建
3.1目标函数:
y
^
=
a
r
g
m
a
x
y
∈
{
0
,
1
}
p
(
y
∣
x
)
(3)
\hat{y}=argmax_{y \in\{0,1\}}p(y|x)\tag{3}
y^=argmaxy∈{0,1}p(y∣x)(3)
y
^
=
a
r
g
m
a
x
y
∈
{
0
,
1
}
p
(
x
∣
y
)
p
(
y
)
(4)
\hat{y}=argmax_{y \in\{0,1\}}p(x|y)p(y)\tag{4}
y^=argmaxy∈{0,1}p(x∣y)p(y)(4)
p
(
x
∣
y
)
由
于
我
们
定
义
为
条
件
独
立
性
假
设
,
所
以
可
得
如
下
:
p(x|y)由于我们定义为条件独立性假设,所以可得如下:
p(x∣y)由于我们定义为条件独立性假设,所以可得如下:
p
(
x
∣
y
)
=
∏
i
=
1
N
p
(
x
i
∣
y
)
(5)
p(x|y)=\prod_{i=1}^{N}p(x_i|y) \tag{5}
p(x∣y)=i=1∏Np(xi∣y)(5)
p
(
y
)
可
以
根
据
实
际
情
况
分
为
:
二
分
类
问
题
−
伯
努
利
分
布
,
多
分
类
问
题
−
类
别
分
布
p(y)可以根据实际情况分为:二分类问题-伯努利分布,多分类问题-类别分布
p(y)可以根据实际情况分为:二分类问题−伯努利分布,多分类问题−类别分布
先
验
/
离
散
特
征
/
二
分
类
问
题
=
p
(
y
)
∼
B
e
r
n
o
u
l
l
i
D
i
s
t
r
i
b
u
t
i
o
n
(6)
先验/离散特征/二分类问题=p(y) \sim Bernoulli \quad Distribution \tag{6}
先验/离散特征/二分类问题=p(y)∼BernoulliDistribution(6)
先
验
/
离
散
特
征
/
多
分
类
问
题
=
p
(
y
)
∼
C
a
t
e
g
o
r
i
a
l
D
i
s
t
r
i
b
u
t
i
o
n
(7)
先验/离散特征/多分类问题=p(y) \sim Categorial \quad Distribution \tag{7}
先验/离散特征/多分类问题=p(y)∼CategorialDistribution(7)
朴素贝叶斯分类器和高斯判别分析的区别:离散和连续,伯努利分布和高斯分布:
先
验
/
连
续
特
征
/
多
分
类
问
题
=
p
(
y
)
∼
C
a
t
e
g
o
r
i
a
l
D
i
s
t
r
i
b
u
t
i
o
n
(8)
先验/连续特征/多分类问题=p(y) \sim Categorial \quad Distribution \tag{8}
先验/连续特征/多分类问题=p(y)∼CategorialDistribution(8)
3.2 极大似然估计
y
^
=
a
r
g
m
a
x
y
∈
{
0
,
1
}
p
(
x
∣
y
)
p
(
y
)
;
对
此
项
进
行
M
L
E
计
算
(9)
\hat{y}=argmax_{y \in\{0,1\}}p(x|y)p(y);对此项进行MLE计算\tag{9}
y^=argmaxy∈{0,1}p(x∣y)p(y);对此项进行MLE计算(9)
我们知道了
p
(
x
∣
y
)
和
p
(
y
)
p(x|y)和p(y)
p(x∣y)和p(y)的概率模型,具体求值MLE可以参考:
8-线性分类-高斯判别分析