贝叶斯决策(1)
贝叶斯决策论考虑基于已知概率和误判损失来选择最优的标记类别。 本博在梳理贝叶斯决策的同时主要关注对于某些概念的理解。
本博主要参考西瓜书第七章。
样本误判产生的风险(损失) λ i j \lambda_{ij} λij
不同类别的误判概率可能不同,贝叶斯决策中用
λ
i
j
\lambda_{ij}
λij 来表示
c
j
c_j
cj 类误判为
c
i
c_i
ci 类产生的损失 。初学者可能对损失存在疑问。
我认为:损失是自己根据实际情况自己定义下的,可能没有明确的单位,但是是一个能够衡量事件对后果的影响的“抽象量”。例如: 阿尔兹海默症患者的诊断中,将非患者诊断为患者的损失远远小于将患者诊断为非患者的损失,因为阿尔兹海默症是无法治疗而只能控制的疾病,若患者无法被正确诊断,会耽误就诊时机(这就是所谓损失的一种),而非患者就算误诊“损失也没有这么大”。
期望损失(风险)
期望损失表示将某样本
x
\textbf{x}
x 判断为某一类
c
i
c_i
ci产生的期望损失,通过后验概率计算:
R
(
c
i
∣
x
)
=
∑
j
=
1
N
λ
i
j
P
(
c
j
∣
x
)
R(c_i|\textbf{x})=\sum_{j=1}^{N}\lambda_{ij}P(c_j|\textbf{x})
R(ci∣x)=∑j=1NλijP(cj∣x)
物理意义:
x
\textbf{x}
x可能属于N个类中的任意一类,
x
\textbf{x}
x 被分为
c
j
c_j
cj 的概率为
P
(
c
j
∣
x
)
P(c_j|\textbf{x})
P(cj∣x),若将
x
\textbf{x}
x随意分类为
c
i
c_i
ci(例如i=1),则期望损失就是所有类别分为
c
i
c_i
ci类的损失的平均(也就是
λ
1
j
,
j
=
1
:
N
\lambda_{1j},j=1:N
λ1j,j=1:N求平均(自变量为“损失”,根据发生的概率直接求平均即可))。
注意: 自变量为误判风险(损失)
最小化总体风险
总体风险 R ( h ) = E x [ R ( h ( x ) ∣ x ) ] R(h)=E_x[R(h(\textbf{x})|\textbf{x})] R(h)=Ex[R(h(x)∣x)],最小化 R ( h ) R(h) R(h),也即寻找一个合适的判定准则 h h h使 R ( h ) R(h) R(h)最小。
贝叶斯决策准则、贝叶斯最优分类器、贝叶斯风险
对于每一个样本若是
h
h
h能够最小化条件风险
R
(
h
(
x
)
∣
x
)
R(h(\textbf{x})|\textbf{x})
R(h(x)∣x),则总体风险也就最小了;
这就是贝叶斯判定准则:为了最小化总体风险,只需要在每个样本上选择那个能够使条件风险
R
(
c
)
∣
x
)
R(c)|\textbf{x})
R(c)∣x) 最小化的类别标记。(这样做的基础为:总体风险是根据总体样本分类结果计算得到的(单个样本分类结果对应一个分类风险,总体风险就是单个风险的和),而
h
h
h代表了一种分类方式比如,选择某个特征最大的那个类别作为当前样本的类别。)
也即:
h
∗
(
x
)
=
a
r
g
m
i
n
c
∈
γ
R
(
c
∣
x
)
h^*(\textbf{x})=argmin_{c\in\gamma}R(c|\textbf{x})
h∗(x)=argminc∈γR(c∣x)
h
∗
h^*
h∗就成为贝叶斯最优分类器,与之对应的总体风险
R
(
h
∗
)
R(h^*)
R(h∗)被称为贝叶斯风险。
1
−
R
(
h
∗
)
1-R(h^*)
1−R(h∗)反映了分类器能够达到的最好性能,也就是机器学习能够产生的模型精度的理论上限
最小化分类错误率
若目标是最小化分类错误率,则
λ
i
j
=
0
,
i
f
(
i
=
=
j
)
;
λ
i
j
=
1
,
e
l
s
e
\lambda_{ij}=0,if(i==j);\lambda_{ij}=1,else
λij=0,if(i==j);λij=1,else
此时条件风险
R
(
c
∣
x
)
=
1
−
p
(
c
∣
x
)
R(c|\textbf{x})=1-p(c|\textbf{x})
R(c∣x)=1−p(c∣x),那么贝叶斯最优分类器:
h
∗
(
x
)
=
a
r
g
m
a
x
c
∈
γ
P
(
c
∣
x
)
h^*(\textbf{x})=argmax_{c\in\gamma}P(c|\textbf{x})
h∗(x)=argmaxc∈γP(c∣x)
然后分类策略问题就转化为最大后验概率的估计问题。
贝叶斯最优估计
由上述的最小化分类误差,可以得知贝叶斯决策论选择了能够使分类误差最小的分类决策,保证预测概率最小化,所以被称为“最优”。
极大似然估计
贝叶斯定理:
P
(
c
∣
x
)
=
P
(
c
)
∗
P
(
x
∣
c
)
/
P
(
x
)
P(c|\textbf{x})=P(c)*P(\textbf{x}|c)/P(\textbf{x})
P(c∣x)=P(c)∗P(x∣c)/P(x)
P
(
c
∣
x
)
P(c|\textbf{x})
P(c∣x)为后验概率;
P
(
c
)
P(c)
P(c)是类“先验概率”;
P
(
x
∣
c
)
P(\textbf{x}|c)
P(x∣c)是样本
x
\textbf{x}
x相对于标记类
c
c
c的“类条件概率”,也就是“似然”;
P
(
x
)
P(\textbf{x})
P(x)与类无关,相当于是一个“归一化因子”。所以估计
P
(
c
∣
x
)
P(c|\textbf{x})
P(c∣x)的问题就转化为了基于训练数据来估计先验概率
P
(
c
)
P(c)
P(c)和类条件概率(似然)
P
(
x
∣
c
)
P(\textbf{x}|c)
P(x∣c)。
类条件概率(似然)
P
(
x
∣
c
)
P(\textbf{x}|c)
P(x∣c)的估计策略通常为:假定其有某种固定的概率分布形式,再基于训练样本对概率分布的参数进行估计。
**条件概率的估计的物理意义可以理解为:在样本集合中,C类中的样本的特征的分布是什么样的。**比如假定固定的概率分布形式为高斯分布,则我们只需要对高斯分布的均值与方差进行估计就可以了(基本为样本估计总体,通过样本计算均值与方差)。
类条件概率(似然)
P
(
x
∣
c
)
P(\textbf{x}|c)
P(x∣c)的分布形式估计完成后,将样本对应的值代入分布(C代表类别通常有多个如
c
1
,
c
2
.
.
.
c_1,c_2...
c1,c2...),我们选择得到的类条件概率大的对应的类作为当前样本的类别。
最大后验概率估计
贝叶斯定理: P ( c ∣ x ) = P ( c ) ∗ P ( x ∣ c ) / P ( x ) P(c|\textbf{x})=P(c)*P(\textbf{x}|c)/P(\textbf{x}) P(c∣x)=P(c)∗P(x∣c)/P(x),似然概率大不能代表后验概率大,还需要“先验概率” P ( c ) P(c) P(c)大,通常训练分类器时,先验概率是可以直接通过样本估计出来的。所以并不麻烦。
朴素贝叶斯
类条件概率(似然)
P
(
x
∣
c
)
P(\textbf{x}|c)
P(x∣c)中
x
\textbf{x}
x代表样本的特征,实质上是一种联合分布。通过样本估计联合分布是很麻烦的,朴素贝叶斯假设样本特征相互独立,
P
(
x
∣
c
)
=
Π
i
=
1
:
m
P
(
x
i
∣
c
)
P(\textbf{x}|c)=\Pi_{i=1:m}{P(x_i|c)}
P(x∣c)=Πi=1:mP(xi∣c),其中
m
m
m为特征个数。
朴素贝叶斯分类的思想十分简单:通过样本估计每个特征的类条件概率(似然)
P
(
x
i
∣
c
)
P(x_i|c)
P(xi∣c),然后连乘得到
P
(
x
∣
c
)
P(\textbf{x}|c)
P(x∣c);得到新的样本时,根据
P
(
x
∣
c
)
P(\textbf{x}|c)
P(x∣c)估计该样本在每一个类别下的似然,选择似然最大的那个类作为该样本的判断类。
总结
梳理了一下对于贝叶斯分类的理解。后续会接着记录相关理解和问题思考。