菜鸟读文献系列（二）

最新推荐文章于 2021-07-21 14:54:35 发布

熊猫gg

最新推荐文章于 2021-07-21 14:54:35 发布

阅读量292

点赞数

文章标签：阅读

本文链接：https://blog.csdn.net/u012842704/article/details/56011854

版权

End-to-End Scene Text Recognition

本系列文章只是本人用来督促阅读文献的方法，内容并不全部正确。参考请慎重。
端到端场景文本识别
摘要：问题的子组件，例如文本检测和裁剪图像字识别，已经被孤立地研究。然而，不清楚的是，这些最近的方法如何有助于解决文本识别的端到端问题。我们通过构建和评估两个系统来填补这一空白。第一个，代表事实上的最先进的状态，是一个两阶段流水线，包括文本检测，然后是领先的OCR引擎。第二个是植根于一般对象识别的系统，是我们先前在工作的一个延伸。我们表明，后者方法实现具有优异的性能。尽管场景文本识别一般已经采用高度领域特定的方法，我们的结果表明应用通用计算机视觉方法的适用性。采用这种方法打开了现实世界中的场景文本识别的大门，从已经发生在物体识别的快速发展中受益。
介绍：在无约束图像中读取词是具有相当实际兴趣的挑战性问题。虽然来自扫描文档的文本已经用作过去的光学字符识别（OCR）应用的主要焦点，但是随着移动成像设备的激增在一般设置（称为场景文本）中获取的文本而变得更加普遍。由于文本在许多环境中是普遍的因素，解决这个问题有潜在的重大影响。例如，阅读场景文本对于在室外环境中配备有面向街道的相机的汽车的导航以及在帮助盲人在某些室内环境中导航时可以起到重要作用。尽管它的显而易见的用途，场景文本问题已经从计算机视觉社会只得到了少量的兴趣。ICDAR鲁棒读取挑战是收集的第一个公共数据集，以突出检测和识别场景文本的问题。在这个基准中，组织者确定了四个子问题:(1)裁剪字符分类，（2）完整图像文本检测，（3）裁剪文本识别，和（4）