Reference:
朱丹翔. 基于深度学习的图像标题生成算法及应用[D].哈尔滨工业大学,2017.
意义:已有研究都着眼于标题句子中单词和图像内容对应,尚缺乏已输出图像内容对于后续输出的影响。传统验证码识别系统大多都是需要先使用数字图像处理的方法对验证码图片进行处理,需要人工操作,系统的移植性也不高。本文基于标题生成的算法,将验证码图片作为输入,字符作为标题句子,把该问题转换为验证码标题识别问题,发挥深度学习端对端优势。
深度学习相关基础知识
1. 多层感知机
归根结底,深度学习就是神经网络。一个标准的神经网络包含了许多简单的相互连接的小处理器,小处理器通常被称为神经元。已有的神经元不断叠加下一层神经网络,形成多层神经网络。
2. 卷积神经网络
卷积神经网络是对通过卷积和池化来提取特征的神经网络的统称。
2.1 卷积操作
卷积和池化。
卷积数学本质是定积分,一个函数在另一个函数上的加权叠加。对应到神经网络中,卷积操作的第一个函数是图片或特征图,第二个函数是卷积核,将特征图在卷积核上加权叠加就能生成新的特征图。卷积核有多个就会生成多张特征图。
公式(2-6)是卷积在神经网络中的前向传播公式(此处未给出)。卷积神经网络中的卷积核可以自动发现图像中的细节纹理特征,细节纹理特征不断组合可以生成更加高级的抽象特征。如一例子,底层图像特征是图像纹理信息,随层数增多,特征抽象程度逐渐增加,高级抽象特征对最终图像分类任务很有帮助。
2.2