OCR
文章平均质量分 96
恒友成
勿在浮沙筑高台
左脑学习,右脑应用
展开
-
5.OCR文本识别CRNN算法
Code:这篇论文是2015年07月份华中科技大学的等提交的。文本识别是OCR任务中关键的一步,经过文本检测后可以获取文本区域的图像,文本识别可以将文本的图像patch转成字符序列。这篇文章中提出的模型架构,将图像的特征提取/序列学习模型/文本转录做了整和,实现了模型的端到端训练。通过模型的整和,模型能够处理任意长度的序列,且对于有字典和无字典(lexicon)的任务都取得了比较好的效果。原创 2023-02-27 01:05:22 · 646 阅读 · 0 评论 -
4.OCR文本识别Connectionist Temporal Classification(CTC)算法
这是2006年第23次ICML会以上的一篇论文。很多实际应用需要从未切分的数据中输出序列信息,如语音识别中的语音转文字,光学字符识别(Optical character recognition,OCR)中的字符图片转字符序列。循环神经网络(Recurrent neural networks,RNN)十分适合序列数据的学习,但其训练数据要求必须是切分后的序列,而实际应用中切分的训练序列数据标注比较困难,是很难获取的。上图是OCR的两种模型,一种如图(a)可直接输入OCR检测得到的图片得到图片中的字符串。原创 2023-02-26 22:48:49 · 1486 阅读 · 0 评论 -
3.基于分割的文本检测算法--DBNet++
计算过程如上图所示,值的注意的是空间注意力机制的使用,先是对每个通道取均值得到特征图每个像素位置上的重要性,再将其加到原输入特征图上,增强每个位置的特征值,再通过卷积输出通道为N个的注意力权重,使得输出的权重能衡量每个尺度特征图的重要性。中的主要创新是自适应多尺度特征融合(Adapptive Scale Fusion,ASF)模块的提出。来实现,这样做并没有考虑不同尺度特征图的重要性是不一样的。图中对一个特征图的shape描述进行了修改,原论文图中存在特征图shape从。上输出的特征图的处理上,原创 2023-02-22 21:29:06 · 1694 阅读 · 0 评论 -
2.基于分割的文本检测算法--DBNet
上图中,蓝色的路径表示传统的基于分割的文本检测,完整流程包括得到分割概率图,使用阈值二值化,然后通过像素聚类等手段得到最终的文本检测结果,红色路径是作者提出的新的方法,同时输出分割概率图和进行二值化使用的阈值图,之后。阅读源码可以发现,与上图中描述不同,训练阶段的二值化结果是通过可微分的二值化操作得到的,预测阶段的二值化结果仍然使用的是固定阈值来计算的。上图中(a)原图,(b)是分割结果的概率图,©是无监督得到的阈值图,(d)是有监督训练得到的阈值图。运算中得到近似二值图,对二值图处理得到文本区域。原创 2023-02-21 23:36:33 · 650 阅读 · 0 评论 -
1.OCR--文本检测算法FCENet
这篇文章是华南理工大学的Yiqin Zhu在2021年04月份发表的有关OCR中做文本检测的工作。一般OCR工作分两步,一步是对文本区域进行检测,先得到文本区域,然后再将检测的文本区域转化成文本。文本检测的复杂性在于文本区域的步规则性和多样性,常用的在图像空间域做文本检测方法有掩码,像素的笛卡尔或极坐标坐标轮廓点。使用掩码来做需要对图像进行像素级分类后处理时间较长,使用轮廓像素点在处理弯曲文本区域时略显无力。文本检测的方法可粗略的分成基于分割的方法和基于回归的方法。原创 2023-02-19 18:21:15 · 1489 阅读 · 1 评论