听霍强老师讲模式分类器设计的最小分类误差训练(MCE)

 我们非常荣幸请到微软亚洲研究院的霍强老师来为我们MSRA-USTC联合培养班带来第三场前沿讲座。首先简单介绍下霍老师,霍强老师是科大826的大牛级人物,87年本科毕业获得郭沫若奖学金,此后两年在浙大读硕士,随后又回到母校参加科大—港大联合培养项目,攻读博士学位。霍老师在港大读博期间,在MCE(最小分类误差训练)方向做出了重要成果,博士论文被MIT一教授赞誉为这是他看过的最好的关于MCE方向的博士论文。博士毕业后,霍老师被邀请到日本京都ATR音声翻译通信研究所工作(ATR被誉为日本的Bell实验室),他95—97年在ATR工作三年后,于98年被邀请回港大任教,07年加入MSRA,被聘为Lead Researcher.

霍老师研究领域广泛,在语音识别,手写识别,光学字符识别(OCR),基于生物信息的身份识别,基于数字信号和图像处理的硬件设计等方向的研究上都做出了重大贡献。

然后简单介绍一下什么是MCE,MCE的全称为 Minimum Classification Error 即最小分类误差,那么这个东西到底有什么用呢?我们知道机器的识别是一个应用非常广泛的领域,现在比较热门的有人脸识别,指纹识别,手势识别,语音识别等,这些技术也用到了现实社会中,例如很多电脑都有人脸识别的功能,然而我们会担心它的识别能力,担心某天电脑万一识别不出主人打不开,或者把一个长得有些像的陌生人错误的识别成了主人而导致信息泄露都是很可怕的事情。所以我们都很期望机器的识别误差越小越好,这就导致了一门学问的诞生:MCE(最小分类误差)。

 

这次霍老师演讲的主题是他读博士时所从事的MCE方向的研究,下面我分三个部分来和大家分享霍老师的讲座。 

一,MCE背景

这个研究方向始于60年代末期日本人Amari 和俄国人Tsypkin 的天才工作,两人分别发表论文阐述了MCE的基本思想,到了90年代,B.-H. Juang 和S. Katagiri 做了很多研究使这门学科得到了极大的发展。

下面介绍一下,B.-H. Juang 和S. Katagiri提出的MCE公式: 

I,定义一个判别函数:

听霍强老师讲模式分类器设计的最小分类误差训练(MCE)
    

II,另外定义错误分类量

听霍强老师讲模式分类器设计的最小分类误差训练(MCE)

 

         其中:

听霍强老师讲模式分类器设计的最小分类误差训练(MCE)

            如果大于0表示分类错误,如果小于0则表示分类正确。

 

        III,定义损失函数

听霍强老师讲模式分类器设计的最小分类误差训练(MCE)

    如果  a 取值足够大,那么当d 小于0时,l 会趋于0,而当d 大于0时,l 会趋于1。所以可以用来计错误分类的个数。

    而一般情况下,MCE 的训练有以下两个标准:

      经验平均损失:

听霍强老师讲模式分类器设计的最小分类误差训练(MCE)


      损失期望:

听霍强老师讲模式分类器设计的最小分类误差训练(MCE)

   

    根据以上这么3步,其实我们可以推出很多种MCE训练算法。

 

 

    二,基于多原型类的模式分类器:

 

   例如一个有M类的模式分类器,设对于类 Ci ,有含有Ki参数的样本向量来决定,即

听霍强老师讲模式分类器设计的最小分类误差训练(MCE)

      则可用矩阵

听霍强老师讲模式分类器设计的最小分类误差训练(MCE)

    来表示所有类原型的样本向量参数。

 

    对于一个未知的样本向量X ,如果满足

听霍强老师讲模式分类器设计的最小分类误差训练(MCE)

  则样本向量X被识别为Ci 类,其中

听霍强老师讲模式分类器设计的最小分类误差训练(MCE)


 

     在讲解了多原型类的分类基本知识之后,霍老师分别较为详细的介绍了传统的MCE训练 (MCE1),改进的MCE训练(MCE2),新的MCE训练(MCE3)。

 

 

   另外老师还特别介绍了基于SSMMCE训练,介绍了QDF的判别函数,以及在中文手写识别中的应用。现在很多手机都支持手写输入,然而我们在使用中常常有这么一个烦恼,当你写的稍微快些,字体有些潦草的时候,手机往往识别出错,所以虽然手写输入都已出道这么久,大家依然坚定的用着拼音输入。那么对于手写识别,我们就这么放弃么,当然不能,只要手写识别能讲草书的时候 错误识别率降下来,相信会有更广阔的应用前景。这其中,最有效最实惠的改进方法莫过于在算法上改进MCE的训练了,下面是一组对比实验结果:

      (关于SSM-MCE的训练方法的发现,老师讲了一段有趣的经历,霍老师的一个学生一直在做MCE的算法改进,并做了大量实验,然而错误识别率并没有降下来,一次偶然间,该学生发现测试数据特别好并找到霍老师探讨,而霍老师对于结果也很惊奇,于是又把Amari的那篇经典论文拿出来细细的读,恍然间发现,之前他们做的算法中漏掉了一个key word,说到这,老师古灵精怪的故意哀叹道“年轻的时候看这篇paper没有认识到这点,误了我十几年啊”,看着老师有些夸张的动作和表情,大家不禁捧腹大笑。)

 

    在实验测试中,潦草字体占70%,正常书写字体占30%

听霍强老师讲模式分类器设计的最小分类误差训练(MCE)

听霍强老师讲模式分类器设计的最小分类误差训练(MCE)

听霍强老师讲模式分类器设计的最小分类误差训练(MCE)

 

     由图表可以看出SSM-MCE使错误率明显下降,一个算法上的小小改进使手写识别中的错误率下降这么多,是非常大的成就。 

 

     三,霍老师介绍研究经历:

    除了讲解读博士时所从事的研究MCE外,霍强老师还和我们分享了他的求学之路的经历,霍老师生动幽默的语言和令人叹为观止的实验经历引来阵阵掌声。霍老师从大一开始每个暑假和寒假都在各个实验室度过,虽然没有任何补贴,老师依然乐此不疲,当霍老师和我们分享他在本科假期时间所做的各个项目(其中不乏很多给军方设计的硬件电路)时,大家不禁为之深深震撼,真是聪明与勤奋造就天才。另外还有一点要提:虽然霍老师本科在实验室投入大量尽力,但GPA在竞争激烈的6系一直保持着全年级第一,实在是太牛了。

最后霍老师结合他的求学和工作经验,鼓励大家要找到自己的passion,并为之奋斗,须知幸运总是会垂青给那些有准备的人的。



听霍强老师讲模式分类器设计的最小分类误差训练(MCE)

(附图:霍老师的讲座异常火爆)

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值