文本检测与识别论文、代码整理

CVPR2020文本检测与识别:
文本检测:
[1].Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection
作者 | Shi-Xue Zhang, Xiaobin Zhu, Jie-Bo Hou, Chang Liu, Chun Yang, Hongfa Wang, Xu-Cheng Yin
单位 | 北京科技大学;中国科学技术大学人工智能联合实验室;腾讯科技(深圳)
代码 | https://github.com/GXYM/DRRG
论文贡献:通过基于CNN的text proposal network利用共享特征来估计文本组建的几何属性;然后局部图可以大致建立不同文本组建的链接;然后使用深度关系推理网络将进一步推断出文本组件与其相邻组件之间的链接可能性;最后根据推理结果将文本组件聚合为整体的文本实例。
不足:本文只实现了检测功能,还没能实现端到端的预测。
[2].ContourNet: Taking a Further Step Toward Accurate Arbitrary-Shaped Scene Text Detection
作者 | Yuxin Wang, Hongtao Xie, Zheng-Jun Zha, Mengting Xing, Zilong Fu, Yongdong Zhang
单位 | 中国科学技术大学
代码 | https://github.com/wangyuxin87/ContourNet
论文贡献:优化了两个问题:
1)伪召回(False Positives)多:之前方法:基于上下文信息,全局与局部关系,以及纹理信息建模;本文方法:将文本检测分解为水平方向和垂直方向的轮廓检测,通过两个检测的联合响应来抑制伪召回;
2)文本尺度变化剧烈时识别精度变差:之前方法:利用融合多尺度特征来预测边界框;本文提出利自身状态信息建模以及不敏感的指标*(loss)来优化网络监测。
场景文本识别:
[1] On Vocabulary Reliance in Scene Text Recognition
作者 | Zhaoyi Wan, Jielei Zhang, Liang Zhang, Jiebo Luo, Cong Yao
文章共享:当前文字识别泛化能力弱,词汇依赖严重(只记住了在训练时见过的词汇),本方法优化了当前文字识别器的泛化能力(图像上的词出现在训练词汇表之内,当前主流方法可以很好识别;而对于单词不在训练词汇表之内的图像,主流方法表现差强人意);实现方法:提出了一种全新的学习策略,将带有注意力机制的解码器和带有分割的解码器同时应用于模型,使其在训练中实现互补。
[2].SCATTER: Selective Context Attentional Scene Text Recognizer
作者 | Ron Litman, Oron Anschel, Shahar Tsiper, Roee Litman, Shai Mazor, R. Manmatha
[3].Towards Accurate Scene Text Recognition With Semantic Reasoning Networks
单位 | 国科大;百度;中科院
代码 | https://github.com/chenjun2hao/SRN.pytorch
[4].SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition
作者 | Zhi Qiao, Yu Zhou, Dongbao Yang, Yucan Zhou, Weiping Wang
单位 | 中科院;国科大
[5]*.ABCNet: Real-Time Scene Text Spotting With Adaptive Bezier-Curve Network
作者 | Yuliang Liu, Hao Chen, Chunhua Shen, Tong He, Lianwen Jin, Liangwei Wang
单位 | 华南理工大学;阿德莱德大学;
代码 | https://github.com/Yuliang-Liu/bezier_curve_text_spotting
备注 | CVPR 2020 Ora
文章贡献:1、提出用参数化的贝塞尔曲线拟合任意形状的文本;该种方法消耗计算资源少,并且效率和进度高。
2、提出了一种新的特征提取结构BezierAlign layer,可以将提取任意形状的示例卷积特征利用该种结构实现特征对齐,使得整个分支可以自然连接到整个结构中。
数据集链接:ctw https://ctwdataset.github.io/(中)
Total-Text:http://www.cs-chan.com/source/ICDAR2017/totaltext.zip
COCO-Text:https://vision.cornell.edu/se3/coco-text-2/
ICDAR2019 数据集:http://rrc.cvc.uab.es/?ch=12 (中)
2020年之前:https://blog.csdn.net/peaceinmind/article/details/51387367#%E6%95%B0%E6%8D%AE%E9%9B%86

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Mathtype截图识别是一种快捷而高效的数学公式处理方法。Mathtype是一款功能强大的数学公式编辑器,它可以将各种复杂的数学公式进行高效简洁的排版,使文档更加优雅美观。 在Mathtype软件中,用户可以通过截图功能对原始的数学公式进行截取和识别,然后将它们转化为Mathtype格式,从而在文档中得到想要的效果。这种方法极大地提高了数字化处理的效率和质量,尤其是在处理大量复杂公式的时候,更是加快了工作进度和减轻了负担。 Mathtype截图识别技术的应用范围十分广泛,包括研究生论文、学术论文、科研报告等领域。在学习和教学过程中,创作和编辑数学题目、数学公式,以及数学期刊编辑过程中,mathtype截图识别都可以发挥重要作用,大大提高了制作精度和效率,增加了工作便利性和人性化程度。 因此,对于需要频繁处理大量数学公式的用户来说,mathtype截图识别是一个非常有用的工具,它可以节省大量的时间和劳动公式,为用户带来更优质的数字化处理体验。 ### 回答2: Mathtype是一款用于编辑数学公式的软件,在学术界和科技领域广泛使用。截图识别是一项Mathtype的重要功能,通过它,用户可以将手写或打印的数学公式截图上传至Mathtype软件中,自动转换成可编辑、可排版的数字格式,将大大提高用户的工作效率。 Mathtype的截图识别功能能够自动识别截图中的数学符号和文本,将其转换为Mathtype软件中的可编辑公式,用户仅需简单的操作,就可以得到高质量的数学公式。同时,截图识别功能也可以自动分析公式的结构、调整公式排版、校验公式正确性等,确保用户得到的数学公式符合学术规范和标准。 此外,Mathtype的截图识别功能还支持多种图像格式,包括JPG、PNG等,用户可以自由选择所需的图像格式,方便快捷。同时,Mathtype还提供了公式导入导出功能,可以将识别后的公式导出为多种格式,方便用户在不同场合下使用。 总之,Mathtype的截图识别功能是一项非常实用的功能,大大提高了用户的工作效率和质量,是学术界、科技领域不可或缺的工具。 ### 回答3: Mathtype是一款常用的数学公式编辑器软件,它可以被用来方便地创建需使用数学符号和公式的文档。这个软件中的公式标记可被FlexiCapture自动识别。在使用Mathtype软件创建数学公式时,将您的公式截图并传送到FlexiCapture软件中进行自动识别和转录。FlexiCapture可以以高精度读取Mathtype生成的截图,通过快速的转录过程将公式转换为可编辑的文本,并存储为数字文件。这项技术的好处在于,使用Mathtype软件编辑的公式可以在任意编辑器或文本处理器中独立地浏览和修改。此外,Mathtype截图识别不受语言或字体的限制,可以识别各种语言和字体样式的数学公式。最后,在识别前,确保图片设置在高清模式,并且数字符号清晰可见,以获得最佳效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值