Bayesian Decision Theory
- 前提:所有概率已知
- 场景:多分类任务
- 假设:
N
N
N种可能的类别,
λ
i
j
\lambda_{ij}
λij是将
R ( c i ∣ x ) = ∑ j = 1 N λ i j P ( c j ∣ x ) R(c_i|x)=\sum_{j=1}^N\lambda_{ij}P(c_j|x) R(ci∣x)=j=1∑NλijP(cj∣x) - 任务:找到一个分类器
h
(
x
)
h(x)
h(x)使得总体风险最小化
h ∗ ( x ) = arg min c ∈ Y R ( c ∣ x ) h^*(x) = \arg \min_{c\in Y}R(c|x) h∗(x)=argc∈YminR(c∣x) - 转化:想要最小化总体风险,考虑去找最小化条件风险
- 对于
P
(
c
∣
x
)
P(c|x)
P(c∣x)后验概率的计算,可以考虑
- 直接对 P ( c ∣ x ) P(c|x) P(c∣x)条件概率建模——判别式模型:决策树、BP神经网络、SVM
- 先对 P ( c , x ) P(c,x) P(c,x)建模,再求 P ( c ∣ x ) P(c|x) P(c∣x)——生成式模型:由贝叶斯公式得到结果
贝叶斯风险 Bayes Error
For any
x
∈
R
d
x \in R^d
x∈Rd
η
(
x
)
=
P
(
Y
=
1
∣
X
=
x
)
=
E
(
Y
∣
X
=
x
)
\eta(x) = P(Y=1|X=x) = E(Y|X = x)
η(x)=P(Y=1∣X=x)=E(Y∣X=x)
对于二分类问题,所有分类函数中,贝叶斯分类器的损失最小
MLE——Maximum Likelihood Estimator
用参数的方法估计似然:先假定具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计,记
P
(
x
∣
c
)
P(x|c)
P(x∣c)为
P
(
x
∣
θ
c
)
P(x|\theta_c)
P(x∣θc)——模型训练的过程就是参数估计的过程——用对数似然的方法
书上有一个正态分布的例子
Naive Bayes Classifier
假定
d
d
d维向量
x
x
x的各个维数之间是独立的,所以
P
(
x
1
,
x
2
,
.
.
.
,
x
d
∣
c
)
=
P
(
x
1
∣
c
)
P
(
x
2
∣
c
)
.
.
.
P
(
x
d
∣
c
)
P(x_1,x_2,...,x_d|c) = P(x_1|c)P(x_2|c)...P(x_d|c)
P(x1,x2,...,xd∣c)=P(x1∣c)P(x2∣c)...P(xd∣c)
h
n
b
(
x
)
=
arg
min
c
∈
Y
P
(
c
)
∏
i
=
1
d
P
(
x
i
∣
c
)
h_{nb}(x)=\arg \min_{c\in Y}P(c)\prod_{i=1}^dP(x_i|c)
hnb(x)=argc∈YminP(c)i=1∏dP(xi∣c)
为了避免其他属性懈怠的信息被训练集中未出现的属性值抹去,估计概率值的时候通常要进行smoothing,常用拉普拉斯修正
Semi-naive Bayes Classifiers
就是有些特征是相关的,不能完全独立算
ODE(One-Dependent Estimator)独依赖估计:假设每个属性在类别之外最多依赖于一个其他属性
SPODE(Super-Parent ODE)超父:假设所有属性都依赖同一个属性(超父)
TAN:在最大带权生成树的算法基础上转化成树的形式(没有环,路径唯一)
- 条件互信息:两个属性相互独立的时候,条件互信息=0,越不独立,条件互信息越大
AODE集成:把弱的或者错的学习器集合在一起就会变强,model average的思想——尝试将每个属性都作为超父来构建SPODE,然后将有足够训练数据支撑的SPODE集成起来作为最终结果
Bayes Network
有向无环图(Directed Acyclic Graph,DAG) 某两点之间的路径不唯一,不是树结构
v结构的特殊性