从孤立单词到无约束文档:离线手写识别的突破
1. 引言
手写识别技术的起源可以追溯到上世纪八十年代,当时就有人开始尝试自动识别手写单词。不过,直到九十年代中期,这一领域才真正开始蓬勃发展,主要得益于两个因素:一是廉价图像采集和存储技术的普及,使得人们能够在大量手写材料数据库上进行实验;二是机器学习领域对手写识别任务(特别是手写数字自动转录)的广泛应用。
早期手写识别研究主要集中在两个应用领域:手写邮政地址中的城镇名称识别和银行支票金额的字母转录。这两个任务在1995 - 2005年期间主导了手写识别研究,原因在于相关的词汇表(即手写数据可能的转录列表)规模较小(10 - 1000个单词),能够实现令人满意的性能。同时,还可以将单词识别与相关手写数字识别(邮政地址的邮政编码和银行支票的数字金额)相结合,使性能迅速达到实际应用的要求。在这一时期,一些重要的手写识别产品销售公司应运而生,如Vision Objects、A2iA、Abbyy等。
后来,由于此前在单词识别方面已经做了大量工作,很难在上述两个领域或其他涉及孤立单词识别的应用领域取得显著进展。因此,相关研究开始从孤立单词识别转向文本转录。这一转变在手写识别领域得到了广泛认可,尤其是在会议场景中,参与者需要记录笔记和会议纪要,文本识别显得尤为重要。然而,当时的技术面临两个挑战:一是需要采用比以往大两个数量级(从100到50000个单词)的词汇表;二是需要对单词序列进行建模,而不仅仅是孤立单词。
2. 离线单词识别
 离线手写识别是指对以静态图像形式存在的手写数据进行自动转录。与在线手写识别不同,离线识别缺少笔的轨迹信息,且墨水笔画的时间顺序未知。其识别过程主要包括以下几个步骤: 
 
                       
                             
                         
                             
                             
                           
                           
                             超级会员免费看
超级会员免费看
                                         
                   订阅专栏 解锁全文
                订阅专栏 解锁全文
                 
             
       
           
                 
                 
                 
                 
                 
                
               
                 
                 
                 
                 
                
               
                 
                 扫一扫
扫一扫
                     
              
             
                   42
					42
					
 被折叠的  条评论
		 为什么被折叠?
被折叠的  条评论
		 为什么被折叠?
		 
		  到【灌水乐园】发言
到【灌水乐园】发言                                
		 
		 
    
   
    
   
             
            


 
            