VALSE 文档图像智能报告整理

引言

  • 这篇文章主要是整理的2022 VALSE中文档图像智能报告中所涉及到相关方向的论文以及未来趋势。
  • 后面如有看到相关论文,还会时不时地更新到这里的。
  • 也希望大家如遇到相关优秀论文,评论区指出,感谢。

端到端检测识别

探索检测和识别的协同作用
减少对标注的依赖
去除一些不必要的组件

文字擦除和编辑

文字辅助场景理解

视频文字擦除和文档矫正

  • (ICCV 2021) STRIVE: Scene Text Replacement In videos.
    • 使用时空转换网络将所有帧中的文字矫正
    • 使用图片中文字编辑的方法替换单一参考帧中的文字,并且使用时空转换网络还原矫正的文字
    • 提供了一个视频文本编辑的数据集
      在这里插入图片描述

文字识别

自监督预训练
对比学习
更高效的语言模型
手写数学公式识别

文档图像理解

视频文字

文字检测

与文本布局相结合

文字超分

与工业应用结合方向

  • 传统应用方向
  • 硬币/印章/LOGO 复杂场景弯曲文字检测
  • 手写公式识别
  • 文字擦除应用(教育方向)
  • 文字篡改检测
  • 历史信息恢复/归档
  • 重叠票据文档文字识别及关键信息提取

强人工智能

  • OCR+NLP

未来可能的发展趋势

  • 超大规模的场景文本检测识别数据集。类似于文字领域的ImageNet
  • 检测和识别相互交融更为紧密(或者相互融合)的Text Spotter
  • 结合多模态信息的文字检测识别在不同场景泛化性改进方案(prompting)
  • 针对现有文字检测识别方法的强化方法(arming)及后处理(post correctiong)
  • 更加统一的Text Spotter对比方式(unified setting)
  • 统一多任务的文档智能方法(Multi-tasks)
  • 弱/无定位框(No Point Text Spotter)
  • 开集/艺术字/手写公式识别
  • 文字篡改、异常检测(tampering text detection)
  • 文字辅助视觉场景理解(text-based vision language)
  • 古籍文字恢复/重建/回溯
  • 基于自然语言处理的智能文字符号设计及生成
  • 3
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值