最近在处理字符识别形近字易识别错的问题,然后有大佬推荐了ctc center loss,该方法来源于阿里,据说效果不错
1.先介绍以下ctc center loss(ctc loss + center loss)
ctc loss我就不介绍了,center loss 最早用于人脸识别中的loss函数,该loss 的目的就是更好的扩大类间距离,缩小类内距离;而在字符识别中的使用,可以分为以下几个步骤:
step1:得到模型的预测结果,和双向长短期记忆法第二个rnn的lstm(线性层之前)的输出结果;
step2:将预测结果中字符数量和标签字符数量相等的预测结果保留下来,并提取出相应的真实标签,和对应的feature的位置;
step3:将step的feature提取出来,和对应的label,计算centerloss;
step4:将计算出的centerloss结果乘以系数然后和ctc loss求和;