想学习 OCR?阿里算法专家撰写的这本新书可别错过

新书速递

一直以来没有一本特别好的,针对OCR方向的既前沿又兼具实践应用的书籍。

今天,为大家推荐一本刚刚出版的新书《深度实践 OCR :基于深度学习的文字识别》。

由阿里巴巴本地生活研究院算法团队技术专家领衔,海康威视、趣头条等企业的算法专家以及知名场景文本算法作者共同撰写;

知名 OCR 算法 FCOS、CTPN 作者田值为其作序。

这本书得到了阿里巴巴本地生活、达摩院、旷视科技、字节跳动、狗尾草等知名AI企业或机构的知名AI技术专家的联袂推荐;

行业应用和学术理论相结合,既有来自于阿里巴巴本地生活实际应用场景的一线实践经验和方法,又有来自学术前沿的新理论;是产业应用和学术前沿的一次思想碰撞!

从组件、算法、实现、工程应用等维度系统讲解基于深度学习的 OCR 技术的原理和落地,提供大量简洁的代码实现,帮助读者从零基础开始构建 OCR 算法。

适读人群 

1.人工智能领域的技术工程师,尤其是从事图像识别和 NLP 的技术工程师; 

2.专门研究 OCR 的专业人士或院校师生等。

下面先一睹为快!

目录

推荐序

前言

第1章 绪论  1

1.1 人工智能大潮中的OCR发展史 1

1.1.1 传统OCR方法一般流程 3

1.1.2 基于深度学习OCR方法一般流程 5

1.2 文字检测  6

1.3 文字识别  8

1.4 产业应用现状  10

1.5 本章小结  11

1.6 参考文献  11

第2章 图像预处理  13

2.1 二值化  13

2.1.1 全局阈值方法  13

2.1.2 局部阈值方法  17

2.1.3 基于深度学习的方法  20

2.1.4 其他方法  22

2.2 平滑去噪  26

2.2.1 空间滤波  26

2.2.2 小波阈值去噪  28

2.2.3 非局部方法  29

2.2.4 基于神经网络的方法  33

2.3 倾斜角检测和校正  35

2.3.1 霍夫变换  36

2.3.2 Radon 变换 38

2.3.3 基于 PCA 的方法 38

2.4 实战  39

2.5 参考文献  43

第3章 传统机器学习方法绪论  45

3.1 特征提取方法  45

3.1.1 基于结构形态的特征提取  45

3.1.2 基于几何分布的特征提取  61

3.2 分类方法模型  63

3.2.1 支持向量机  63

3.2.2 K近邻算法 65

3.2.3 多层感知器  70

3.3 实战:身份证号码的识别  71

3.3.1 核心代码  71

3.3.2 测试结果  78

3.4 本章小结  79

3.5 参考文献  79

第4章 深度学习基础知识  80

4.1 单层神经网络  80

4.1.1 神经元  80

4.1.2 感知机  81

4.2 双层神经网络  82

4.2.1 双层神经网络简介  82

4.2.2 常用的激活函数  83

4.2.3 反向传播算法  86

4.3 深度学习  87

4.3.1 卷积神经网络  88

4.3.2 常用优化算法  90

4.4 训练网络技巧  92

4.4.1 权值初始化  92

4.4.2 L1/L2正则化 93

4.4.3 Dropout  94

4.5 实战  95

4.6 参考文献  97

第5章 数据生成  99

5.1 背景介绍  99

5.2 传统单字OCR数据生成 100

5.3 基于深度学习的OCR数据生成 101

5.3.1 文字检测数据的生成  101

5.3.2 检测图片生成  103

5.3.3 其他方法  112

5.3.4 识别数据生成  113

5.4 通过GAN的技术生成数据 114

5.4.1 GAN背景介绍 114

5.4.2 GAN的原理 116

5.4.3 GAN的变种 117

5.5 图像增广  123

5.5.1 常用的图像增强方法  123

5.5.2 深度学习方法  126

5.6 常用的开源数据集  128

5.7 ICDAR的任务和数据集 131

5.8 本章小结  138

5.9 参考文献  138

第6章 深度学习高级方法  140

6.1 图像分类模型  140

6.1.1 LeNet5  140

6.1.2 AlexNet  142

6.1.3 VGGNet  143

6.1.4 GoogLeNet  144

6.1.5 ResNet  147

6.1.6 DenseNet  151

6.1.7 SENet  153

6.1.8 轻量化网络  154

6.2 循环神经网络  154

6.2.1 RNN网络 154

6.2.2 GRU  156

6.2.3 GRU的实现 158

6.2.4 LSTM网络 160

6.3 Seq2Seq  163

6.4 CTC Loss  164

6.4.1 算法详解  166

6.4.2 前向传播  168

6.4.3 后向传播  173

6.4.4 前向/后向算法 173

6.4.5 CTC算法特性 174

6.4.6 代码解析  175

6.5 Attention  178

6.6 本章小结  181

6.7 参考文献  182

第7章 文字检测  183

7.1 研究意义  183

7.2 目标检测方法  185

7.2.1 目标检测相关术语  186

7.2.2 传统检测方法  189

7.2.3 Two-stage 方法 195

7.2.4 One-stage 方法 210

7.3 文本检测方法  217

7.3.1 传统文本检测方法  217

7.3.2 基于深度学习的文本检测方法  222

7.4 本章小结  228

7.5 参考文献  228

第8章 字符识别  232

8.1 任务概览  232

8.2 数据集说明  233

8.2.1 数据集意义  233

8.2.2 常见识别数据集介绍  234

8.3 评测指标  238

8.3.1 编辑距离  239

8.3.2 归一化编辑距离  239

8.3.3 字符准确度  239

8.3.4 词准确率  239

8.3.5 语境相关的评测方式  239

8.4 主流算法介绍  240

8.4.1 传统光学方法  240

8.4.2 完全基于深度学习的方法  244

8.5 CRNN模型实战 274

8.5.1 简介  274

8.5.2 运行环境  274

8.5.3 测试部分讲解  274

8.5.4 测试运行结果  279

8.5.5 训练部分  279

8.5.6 用ICDAR2013数据集训练CRNN模型  282

8.6 本章小结  284

8.7 参考文献  285

第9章 OCR后处理方法 288

9.1 文本纠错  288

9.1.1 BK-tree  289

9.1.2 基于语言模型的中文纠错  293

9.2 文本结构化  297

9.2.1 模板匹配  298

9.2.2 文本分类  300

9.3 本章小结  304

9.4 参考文献  304

第10章 版面分析  306

10.1 版面分析详解  306

10.2 复杂版面识别  309

10.3 文档恢复  310

10.4 本章小结  311

10.5 参考文献  311


全书按照 OCR 的步骤组织为:

第一章:介绍了文本识别的基本流程,研究现状,技术路线图,给新手做了非常好的科普工作。

第二章:介绍了文本识别领域中的图像预处理方法,包括阈值法与降噪,倾斜角矫正,对于新人了解在文本识别项目中的基础图像算法很有帮助。

第三章:简介了与文本有关的结构和几何特征,以及相关的传统机器学习算法,对大家增强自己在文本识别领域的机器学习和图像特征基础有所帮助。

第五章:讲解了在OCR领域非常重要的数据生成技术,包括检测和识别数据生成,对工程实践非常有帮助。

第七章:比较详细地介绍了文本检测的核心算法,包括传统算法和深度学习模型。

第八章:非常详细地介绍了字符识别的核心算法,包括传统算法和深度学习模型。

第九章:针对真实的OCR系统,介绍了关键的后处理技术,包括文本纠错和结构化,对工程实践非常有帮助。

第十章:简介了版面分析的内容,包括结构化信息提取,文档修复,可供大家继续深入拓展了解相关应用。

配套代码:

https://github.com/ocrbook/ocrinaction

深度实践OCR:基于深度学习的文字识别

阿里巴巴本地生活研究院算法团队联合知名场景文本算法作者撰写,产业应用和学术前沿的一次思想碰撞!从组件、算法、实现、工程应用等维度系统讲解基于深度学习的OCR技术的原理和落地,提供大量案例

更多精彩回顾

书讯 | 6月书讯 (上)| 初夏已至,书香有约,六月宜静心读书
上新 | 周志华领衔撰写,历时4年,宝箱书问世!
书单 | 创建字节跳动之前,张一鸣读过哪些硬核技术书?

干货 | 想入门深度学习?你需要先搞懂这三个问题

收藏 | TIOBE 6 月编程语言排行榜:C 与 Java 进一步拉开差距、Rust 跃进 TOP 20

点击↓【阅读原文】,了解更多AI好书!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值