概述,贝叶斯策略,最大似然估计

概述,贝叶斯策略,最大似然估计

标签: 模式分类

@author lancelot-vim


绪论

宽度和数量直方图:

宽度与数量直方图.png-138.7kB

光泽度和数量直方图:

光泽度与数量直方图.png-137.3kB

宽度-光泽度联合分类图:

宽度-光泽度联合分类.png-176.6kB

简单归纳:
  1. 从单一特征得到的分类一般不强
  2. 将单一特征组合起来成多特征分类能得到更强的分类器
  3. 分类器模型简单(如图中红色线条)会比较弱,分类器太强(如图中蓝色线条)可能会过分类
  4. 以上问题,可能会存在如果鲈鱼分错,可能不会有太大的问题,但反之可能造成很大的影响
问题:
  1. 如何选择特征
  2. 如何选择分类器
  3. 分类之后如何采取行动

处理方案流程图:
Created with Raphaël 2.1.0 输入 (物理信号) 传感器 (输入信号,模拟信号、数字信号等) 预处理 (分割,组织,对单词、字母、图像去除背景等操作) 特征提取 (平移不变性、旋转不变性、尺度不变性,三维问题、遮挡问题、透视失真等) 分类 (同一类别特征值波动, 不同类别的差异,特征丢失) 后处理 (上下文信息改善分类,根据风险选择策略)

贝叶斯决策论

引言

条件概率密度与贝叶斯公式

条件概率密度与贝叶斯公式.png-90.5kB

P(w1)=23 , P(w2)=13 时的后验概率:

后验概率图.png-84kB


误差定义:

p(error)={p(w1|x)p(w2|x)xw2xw2

总误差为: P(error)=p(error,x)dx=p(error|x)p(x)dx

x , 若 p(error|x) 尽量小, 那么 P(error) 就尽量小, 所以令 p(error|x)=min[p(w1|x),p(w2|x)]


连续特征的贝叶斯决策论

  • 允许使用多于一个的特征
  • 允许使用两种类别以上的情形
  • 允许有其他行为而不仅仅只是判定类别
  • 通过引入一个更一般的损失函数来代替误差概率

以下4个约定:
1. {w1,w2,w3,...wc} 表示c个类别(class)
2. {α1,α2,α3....αa} 表示a中行动(action)
3. λ(αi|wj) 表示类别为 wj ,采取行为 αi 的损失
4. x⃗  表示d维的特征

根据贝叶斯公式: p(wj|x⃗ )=p(x⃗ |wj)p(wj)p(x⃗ )

若观测到 x⃗ 0 ,采取行为 αi ,则损失为: R(αi|x⃗ 0) = cj=1λ(αi|wj)p(wj|x⃗ 0)

总损失为: R=R(α(x⃗ )|x⃗ )P(x⃗ )dx⃗ 
若选择 α(x⃗  使得: R(αi|x⃗ ) 对每个 x⃗  尽可能小,则风险函数最小化


对于二分类问题

约定:
1. α1 对应于 w1
2. α2 对应于 w2
3. λij=λ(αi|wj) 表示损失

则损失函数方程为:

{R(α1|x⃗ )=λ11p(w1|x⃗ )+λ12p(w2|x⃗ )R(α2|x⃗ )=λ21p(w1|x⃗ )+λ22p(w2|x⃗ )

R(α1|x⃗ )<R(α2|x⃗ ) , 即 (λ21λ11)p(w1|x⃗ )>(λ12λ22)p(w2|x⃗ ) ,将该类别判为 w1

λ21>λ11 p(x⃗ |w1)p(x⃗ |w2)>λ12λ22λ21λ11P(w2)P(w1)=θ , 将该类别判为 w1 , 如下图
似然比图.png-75.2kB


极小化极大原则
总损失:

R=R1[λ11p(x⃗ |w1)P(w1)+λ12p(x⃗ |w2)P(w2)]dx⃗  +R2[λ21p(x⃗ |w1)P(w1)+λ22p(x⃗ |w2)P(w2)]dx⃗ 

由于 P(w2)=1P(w1) , R1=1R2 得:

R[P(w1)]=λ22+(λ12λ22)R1p(x⃗ |w2)dx⃗ +P(w1)[(λ11λ22)+(λ21λ11)R2p(x⃗ |w1)dx⃗ (λ12λ22)R1p(x⃗ |w2)dx⃗ ]

(λ11λ22)+(λ21λ11)R2p(x⃗ |w1)dx⃗ (λ12λ22)R1p(x⃗ |w2)dx⃗ =0

可得 R1 , R2 , 以及极小化极大误差: Rmm=λ22+(λ12λ22)R1p(x⃗ |w2)dx⃗ =λ11+(λ21λ11)R2p(x⃗ |w1)dx⃗ 

极小化极大描述图:

极小化极大描述图.png-62kB

分类器、判别函数和判定面

定义:

一般我们认为对于所有的 ji ,有 gi(x⃗ )>gj(x⃗ ) ,则认为该特征向量 x⃗  的类型为 wi

一般流程如下图:

分类决策流程图.png-79.3kB

一般判决函数选择:
  1. gi(x⃗ )=P(wi|x⃗ )=p(x⃗ |wi)P(wi)cj=1p(x⃗ |wj)P(wj)
  2. gi(x⃗ )=p(x⃗ |wi)P(wi)
  3. gi(x⃗ )=lnp(x⃗ |wi)+lnP(wi)

正态判别函数

对于正态分布,通常我们取判别函数为 gi(x⃗ )=lnp(x⃗ |wi)+lnP(wi) ,根据正态分布密度函数可得:
gi(x⃗ )=12(x⃗ u⃗ i)TΣ1i(x⃗ u⃗ i)d2ln2π12ln|Σi|+lnP(wi)

情况1 : Σi=σ2I

对此情况, |Σi|=σ2d , Σ1i=Iσ2 ,由此简化判别函数为:

gi(x⃗ )=||x⃗ u⃗ i||2σ2+lnP(wi)=12σ2[x⃗ Tx⃗ 2uiTx⃗ +uiTui]+lnP(wi)
显然 x⃗ Tx⃗  对所有的i是相等的,所以可以简化 gi 为线性判别函数: gi(x⃗ )=wiTx⃗ +wi0

其中 wi=1σ2ui , wi0=12σ2u⃗ Tiu⃗ i+lnP(wi)

对于 ij ,令 gi=gj ,得: w⃗ T(x⃗ x⃗ 0)=0 ,其中 w⃗ =u⃗ iu⃗ j,x⃗ 0=12(u⃗ i+u⃗ j)σ2||u⃗ iu⃗ j||lnP(wi)P(wj)(u⃗ iu⃗ j)

w⃗  可见,判别面为数据的法平面,当 P(wi)=P(wj) 时,正好是中垂面

情形一示意图.png-50.6kB


情况2 : Σi=Σ

判别函数可重写为: gi(x⃗ )=12(x⃗ u⃗ i)TΣ1i(x⃗ u⃗ i)+lnP(wi)

由同样的方法可得:
w⃗ =Σ1(u⃗ iu⃗ i),x0=12(u⃗ i+u⃗ j)ln[P(wi)]/P(wj)](u⃗ iu⃗ j)TΣ1(u⃗ iu⃗ j)(u⃗ iu⃗ j)

w⃗  可见,判别面为数据马氏距离的法平面,当 P(wi)=P(wj) 时,正好是马氏距离中垂面


最大似然估计

假设每个分类有数据集 D1,D2...Dc 的样本分别都是根据独立同分布的 p(x⃗ |wj) 抽取的,概率分布形式已知,但参数未定,约定未知参数符号为 θ⃗ j ,那么可以写出最大似然函数: L(Dj|θ⃗ j)=Πnk=1p(x⃗ k|θ⃗ j)

我们认为发生的事情为是概率最大的事,所以目标为求得使得 L(Dj|θ⃗ j)) 最大的 θ⃗ j , 一般情况,为了计算方便,我们使用似然函数的对数函数即 l(θ⃗ j)=lnL

最大似然估计示意图.png-96.2kB

高斯解

  1. u 未知:u^=1nnk=1x⃗ k
  2. u,Σ 未知: u^=1nnk=1x⃗ k,Σ^=1nnk=1(x⃗ ku^)(x⃗ ku^)T

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值