详述MCE

主要框架

  • discriminant function
  • misclassification measure
  • the associated loss
  • the updating method

下面的详解主要都是1-NN分类器的背景下讲述的


discriminant function

In the case of 1-NN classifier, the discriminant function of a class is the negative of the minimum distance from the input pattern to this class。

gk(x)=minjd(x,mkj)
即给定了一个pattern x, 那么对第k个类而言,它的discriminant function 就是x到它的原型最短距离的负值

misclassification measure

由前面的discriminant function,定义对应的错分衡量函数,可以是

μk(x)=gk(x)+gr(x)
其中 gr(x)是误分类中最近类r的判别函数, gk(x)是正分类k的判别函数
可以看 μk(x)=minjd(x,k)minjd(x,r),所以当正分时, μ<0;否则 μ>0

the associated loss

MCE定义的loss function如下:

lk(x)=lk(μk)=11+eξμk

如此,在给定一个training set后,这个training set的empirical average loss如下
L0=1Nn=1Nk=1Mlk(xn)I(xnCk)

the updating method

为使empirical loss最小,这里使用了随机梯度下降法,即lkmkmr求偏导,下面给出求偏导后的结果:

使用随机梯度下降,是因为我们要训练的是每个类的prototype,在每给定一个sample,我们在这个sample下更新这个类的prototype,使最终的每个类的分类结果最佳

随机梯度下降的更新公式如下:

结合上面两处公式,得到最终的更新公式:

训练过程中,训练参数α会随时间变化。

总结

整个的discriminant learning using MCE的过程大概就是上面的过程。在实际使用时,涉及prototype的个数及初始化以及α的设置,这一部分挺麻烦的,在看论文过程中,提到了prototype的个数,好像为最优的是5,初始化的话是聚类中心。对于α(t)学习率的话,初始化为α(0)=A(np)nxnx为每类的样本数,并且每使用完一轮全部样本后,α(s+1)=0.95α(s)。而对于A的选择,则十分宽泛。
这是我对MCE的总结,有问题的地方,希望博友们能够指正。





转载于:https://www.cnblogs.com/MaiYatang/p/4819280.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值