中文图片的文本行识别心得

最新推荐文章于 2023-07-21 18:10:25 发布

sunrise_ccx

最新推荐文章于 2023-07-21 18:10:25 发布

阅读量1k

点赞数 1

分类专栏：计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27061325/article/details/90183693

版权

计算机视觉专栏收录该内容

4 篇文章 0 订阅

订阅专栏

【更新2020.9.20】

今天做手写英文行识别的时候再次遇到了这个蛋疼的问题：loss降到3.24就不降了，预测结果为常值。。。反复检查和调整参数，整了我3天，终于破案了：

在模型、数据、优化器都没问题的情况下，看看模型的初始化方法。

我本来是采用kaiming_normal初始化策略的，这是我一直默认采用的网络初始化方法。然而，这次kaiming并不适合这个场景。当我把kaiming_normal初始化部分代码注释掉之后，模型就正常训练了。

结论就是，要敢于质疑一切啊！以前一直不在意初始化方法，这次就差点挂在了初始化。。

----------------------------------------

中文相比于英文，有个显著特点就是字符很多。如果不考虑偏旁部首构成，文字的分类数会有几千几万。

这种情况下如果从头训练（随机初始化），单个字符识别的训练过程尚且不容易（参考博客，还是可以训练好的），基于attention的encoder-decoder方法就更困难了，因为它还包含一个计算attention的定位过程。

我曾尝试从头训练一个基于attention的encoder-decoder方法（共6346个汉字，6347分类），但是loss总是在一个很大的数字（4.7）时就不降了，而且对每个样本预测的字符序列都一样。难以训练。

最后我使用之前训练好的单字符模型的提特征部分作为Encoder的提特征部分，把参数搬过来，新模型一开始在Encoder提特征部分的学习率设置特别小。采用adadelta，终于可以很好地学习了。

对于训练文本行中文识别模型的总结如下：

（1）先对涉及到的单个中文字符分类，得到一个单字符分类模型；

（2）把上面的模型的提取特征部分作为Encoder的提特征部分，训练encoder-decoder模型。注意加载了预训练参数的部分的学习率应该设置很小。

（3）等到网络学习得很好的时候，再将整个模型学习率设为一样。

（4）如果一定要从头学习，Encoder部分网络还是别搞太复杂。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
中文图片的文本行识别心得

中文相比于英文，有个显著特点就是字符很多。如果不考虑偏旁部首构成，文字的分类数会有几千几万。这种情况下如果从头训练（随机初始化），单个字符识别的训练过程尚且不容易（参考博客，还是可以训练好的），基于attention的encoder-decoder方法就更困难了，因为它还包含一个计算attention的定位过程。我曾尝试从头训练一个基于attention的encoder-decoder方法...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。