OCR 知识概括

最新推荐文章于 2022-05-20 23:02:04 发布

上后左爱

最新推荐文章于 2022-05-20 23:02:04 发布

阅读量356

点赞数

分类专栏：图像识别技术

原文链接：https://zhuanlan.zhihu.com/p/65707543

版权

图像识别技术专栏收录该内容

1 篇文章 0 订阅

订阅专栏

图像处理基础知识

OCR

OCR

文字识别也是CV主要研究方向之一，文字识别方向主要：
1.单独文字识别
2.结合文字进行检测
3. 文字端到端识别
文字识别技术：通过文字检测定位文字在图像区域，在提取区域上特征，在此基础上做专门的字符识别，出现许多端到端ENd2End OCR

文字检测— 定位图片中文本区域（定位的精度直接影响后续的Recongnition）
文字检测中概念：
1. ground truth(GT): 在有监督学习中数据是标记（X,t） x 是输入数据，正确的t 的标注是 ground truth
  在图像识别中：输入图像的alpha图，原始图使用Alpha大哥标签就是GT (Aplha 通道表示一个图片透明和不透明程度)
2. detecting box: 窗口移动的 box
3. IOU: 图像分割问题标准性能度量，预测区域与实况区域之间的相似性
4. 文字检测算法：
5. EAST/CTPN/SegLink/PixelLink/TextBoxes/TextBoxes++/TextSnake/MSR/…
文字识别：
对于不弯曲的文本识别
* CNN + RNN + CTC
* CNN + seq2deq+Attention
* CNN + LSTM + CTC 验证码识别
对于弯曲文本识别：
按照传统方式出现大量无效的区域，STN 网络学习变换参数
使用Deformable Convolution 可变形卷积可以提取文字区域的不同形状特征

参考文章： https://zhuanlan.zhihu.com/p/657075435

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

上后左爱 CSDN认证博客专家 CSDN认证企业博客

码龄9年

68: 原创

8万+: 周排名

228万+: 总排名

8万+: 访问

: 等级

1183: 积分

11: 粉丝

17: 获赞

4: 评论

88: 收藏

私信

关注

热门文章

分类专栏

最新评论

2017华为提前批任务的顺序打印
上后左爱: https://pan.baidu.com/s/19tUBliZIYy2HQ0LiVfCw-A 密码: d9fb
伸展树---（自顶向下的设计）
liuchengshishabi: leftTreeMax=t;// 向下移动用 header结点记录初始位置不怕首地址丢失能具体解释一下吗？ leftTreeMax.right=t; 之后再使用上述操作不是将leftTreeMax覆盖了吗？我自己调试的时候，将上述代码删除，发现不能够成功编译，主要是不能够理解，希望解惑
伸展树---（自顶向下的设计）
liuchengshishabi: leftTreeMax=t;// 向下移动用 header结点记录初始位置不怕首地址丢失能具体解释一下吗？ leftTreeMax.right=t; 之后再使用上述操作不是将leftTreeMax覆盖了吗？我自己调试的时候，将上述代码删除，发现不能够成功编译，主要是不能够理解，希望解惑

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。