主要框架
- discriminant function
- misclassification measure
- the associated loss
- the updating method
下面的详解主要都是1-NN分类器的背景下讲述的
discriminant function
In the case of 1-NN classifier, the discriminant function of a class is the negative of the minimum distance from the input pattern to this class。
misclassification measure
由前面的discriminant function,定义对应的错分衡量函数,可以是
可以看 μk(x)=minjd(x,k)−minjd(x,r),所以当正分时, μ<0;否则 μ>0
the associated loss
MCE定义的loss function如下:
如此,在给定一个training set后,这个training set的empirical average loss如下
the updating method
为使empirical loss最小,这里使用了随机梯度下降法,即lk对mk和mr求偏导,下面给出求偏导后的结果:
使用随机梯度下降,是因为我们要训练的是每个类的prototype,在每给定一个sample,我们在这个sample下更新这个类的prototype,使最终的每个类的分类结果最佳
随机梯度下降的更新公式如下:
结合上面两处公式,得到最终的更新公式:
训练过程中,训练参数α会随时间变化。
总结
整个的discriminant learning using MCE的过程大概就是上面的过程。在实际使用时,涉及prototype的个数及初始化以及α的设置,这一部分挺麻烦的,在看论文过程中,提到了prototype的个数,好像为最优的是5,初始化的话是聚类中心。对于α(t)学习率的话,初始化为α(0)=A(√np)nx,nx为每类的样本数,并且每使用完一轮全部样本后,α(s+1)=0.95∗α(s)。而对于A的选择,则十分宽泛。
这是我对MCE的总结,有问题的地方,希望博友们能够指正。