贝叶斯决策
分类器
贝叶斯决策是属于基于统计决策的分类器
无论分类器原理如何复杂,都可以表示为一个多元单值函数
F
(
x
)
:
X
d
→
Y
[
−
1
,
1
]
F(x): X^d→Y\ [-1,1]
F(x):Xd→Y [−1,1]
贝叶斯决策在什么场景下使用?
前提:目标(事物)的观察值是随机的,服从一定的概率分布。
贝叶斯决策能够用于分类的出发点是什么?
贝叶斯决策思想及计算公式
由事件(样本)→现象(特征)→推断事件及其概率,例子:男性女性样本→身高、体重→生成分类器分类(给新的样本比如身高177cm体重75kg判定属于男性)
后验概率的计算(Bayes公式):
P
(
ω
i
∣
X
)
=
P
(
ω
i
)
p
(
X
∣
ω
i
)
P
(
X
)
=
P
(
ω
i
)
p
(
X
∣
ω
i
)
∑
i
=
1
M
P
(
ω
i
)
p
(
X
∣
ω
i
)
\ P(ω_i\ |X)=\frac{P(ω_i)p(X|\ ω_i)}{P(X)}=\frac{P(ω_i)p(X|\ ω_i)}{\displaystyle\sum_{i=1}^{M} P(ω_i)p(X|\ ω_i)}
P(ωi ∣X)=P(X)P(ωi)p(X∣ ωi)=i=1∑MP(ωi)p(X∣ ωi)P(ωi)p(X∣ ωi)
一些基本概念
几种常用的决策规则
1.基于最大后验概率的贝叶斯决策(MAP)
决策规则(属于那类的后验概率最大,即判断为哪一类)
a
r
g
m
a
x
P
(
ω
i
∣
X
)
arg\ max\ P(ω_i\ |X)
arg max P(ωi ∣X)
判别函数 :
g
i
(
x
)
=
P
(
ω
i
)
p
(
X
∣
ω
i
)
g_i(x)=P(ω_i)p(X|\ ω_i)
gi(x)=P(ωi)p(X∣ ωi)
2.基于最小错误率的贝叶斯决策
m
i
n
P
(
e
)
=
∫
P
(
e
∣
x
)
p
(
e
)
d
x
min\ \ \ \ \ \ \ P(e) = \int P(e|\ x)\ p(e)dx
min P(e)=∫P(e∣ x) p(e)dx
二分类时等价于最大后验贝叶斯决策
3.基于最小风险的贝叶斯决策
考虑不同错误所带来的损失(相当于对每一项决策赋予权重)--------决策使风险最小
1.把样本
x
x
x看作
d
d
d维随机变量
x
=
[
x
1
,
x
2
,
.
.
.
x
d
]
T
x=\begin{bmatrix} x_1,&x_2,&...&x_d\end{bmatrix}^T
x=[x1,x2,...xd]T
2.状态空间
Ω
Ω
Ω由
c
c
c个可能的状态组成:
Ω
=
{
ω
1
,
ω
2
,
.
.
.
ω
c
}
Ω=\{ ω_1,ω_2,...ω_c \}
Ω={ω1,ω2,...ωc}
3.对随机向量
x
x
x可能采取的决策组成了决策空间,由
k
k
k个决策组成:
A
=
{
a
1
,
a
2
,
.
.
.
a
k
}
A=\{a_1,a_2,...a_k\}
A={a1,a2,...ak}
4.对于实际状态
ω
j
ω_j
ωj的向量
x
x
x,采取决策
a
i
a_i
ai所带来的损失为
λ
(
a
i
,
w
j
)
λ(a_i,w_j)
λ(ai,wj),形成损失函数(权重)(人为确定)
判别?
两类错误率
真阳性率(True Positive Rate, TPR):
T
P
T
P
+
F
N
\frac{TP}{TP+FN}
TP+FNTP
假阳性率(False Positive Rate, FPR) :
F
P
F
P
+
T
N
\frac{FP}{FP+TN}
FP+TNFP
查准率P:
T
P
T
P
+
F
P
\frac{TP}{TP+FP}
TP+FPTP
查全率R:
T
P
T
P
+
F
N
\frac{TP}{TP+FN}
TP+FNTP
针对同一个分类器,根据真阳性率和假阳性率画ROC曲线,用曲线下的(相对)面积即AUC(area underROC curve)来定量地衡量方法的性能
根据查准率和查全率画PR曲线,找到针对自己需求(如更需查全且查准率大于80%)下对应参数为分类器参数,或选择最优分类器