OCR场景的文档分类(细粒度/小样本)探索[持续更新]

最新推荐文章于 2023-08-31 16:44:00 发布

Jacky_QinXm

最新推荐文章于 2023-08-31 16:44:00 发布

阅读量733

点赞数

分类专栏：计算机视觉算法文章标签：深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011268606/article/details/109370902

版权

本文探讨了在真实场景下，OCR文档分类面临的种类繁多、相似度高和样本不足等问题。研究了利用深度学习和计算机视觉技术，特别是细粒度分类方法，如part-based模型和注意力机制，以及样本特性挖掘来解决这些问题。提到的方案包括部件强监督、多层attention以及使用pair/triple loss进行特征强化。

摘要由CSDN通过智能技术生成

目录

背景说明

文档分类是个比较经典和传统的topic，在ICDAR上也有些数据集和比赛。不过大部分都是英文文档，方法也都比较直接，直接扔进去网络里面训练了。但实际上，与真实场景的问题差距是比较大的。

公开数据集

这部分工作后续逐步补充
RVL-CPID文档分类数据集

真实场景的问题

1、种类繁多
真实场景包含各种卡证、财务类、金融医疗类等文档票据，从业务逻辑上，需要将各类票证分开。比如费用明细不同的页数需要分开，购物小票、结算小票等票据的区分。

2、相似度高
无论是从视觉还是从内容上，区分性都并不是很明显。简单的提取视觉特征，做分类已经不足够。如何提取更有代表性的特征？是否可以融合局部特征？如何让网络学习更强的类类和类间表示？

3、样本不足，标注成本较高
真实场景无法获取到大量数据，而又要解决问题。另外，即使获取到大量数据，标注成本也会非常高。如何搭建小样本学习的框架？如何构建弱监督的模型能力？

方案调研&尝试记录

细粒度分类

最先也是最容易考虑到方向是细粒度分类，有一篇综述还可以[1]。有两套比较合适的思路：

融合部件信息（part-based）

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。