基于演化深度学习的图像描述自动生成技术研究

a)本文提出了一种演化神经网络,其能够将提取的图像信息转换为视觉特征,从而更加有效地利用图像信息完成图像描述任务。
b)本文提出了一种基于 LSTM 的自适应合并解码器,该解码器由视觉注意模块、文本注意模块和自适应合并门模块组成。该解码器可以自适应地融合视觉特征和文本信息,形成视觉-文本融合信息,并对给定的图像逐个生成相应的描述词。
c)通过在 Flickr30K 和 COCO2014 数据集实验结果的定量分析,表明了本文模型较之于其他典型模型的性能优越性,以及模型中的每个子模块都有助于提高模型图像描述的性能。
d)本文对实验模型进行了包括示例和生成描述的可视化的定性结果分析。此外,本文还进行了错误案例分析,以提供关于如何提高本文提出模型的性能的可行建议和见解。

图像描述的自动生成问题受到了世界范围内越来越多研究者的关注。目前,关于图像描述的研究工作主要从基于模板的方法、基于搜索的方法和基于语言的模型三个不同的维度展开。随着研究的不断深入,基于语言的模型因其对给定的图像能够产生新颖、多样的描述而脱颖而出。本文提出模型就是基于语言的编码器-解码器模型。该模型的灵感来自于神经网络在机器翻译中的成功应用。类似于机器翻译中的将一种语言翻译成另一种语言,该模型采用编码器-解码器框架直接将给定的图像翻译成能够描述该图像的句子。具体来说,编码器-解码器框架由编码器和解码器两个子模块组成。一方面,能够从图像中提取信息的编码器通常是卷积神经网络(Convolutional Neural Network, CNN), 如 VGG, AlexNet 和 ResNet。为了从图像中提取更细粒度的图像信息,这些编码器框架通常首先被预先训练于大型数据集上的图像分类或图像识别任务。另一方面,将给定图像的视觉信息转换为描述的解码器通常是循环神经网络,如 GRU(Gated Recurrent Unit)和 LSTM(Long Short Term Memory)。

遗传算法[24]是一种不需要求导的随机优化方法,它以自然选择和演化过程为基础。遗传算法[25]被广泛应用于自适应控制、数据库查询优化和深度学习。通常而言,遗传算法优化主要包括以下四个步骤[26]: a)编码和初始化。编码表示对优化对象的编码,初始化表示对各种相关参数的初始化。
b)适应度函数的设计。适应度是衡量个体质量优劣的标志,通常指所研究问题的目标函数。
c)选择。基于优胜劣汰的原则来确定将参与下一代的繁殖的亲本。
d)突变。利用当前基因库的潜力来产生新的个体并保留良好的特征。 如果所需的编码信息不在当前基因库中,则自发突变会产生新个体。

演化策略是 Rechenberg[27]于 1963 年提出的一种模拟自然进化原理来解决参数优化问题[28,29]的算法。进化策略中应用比较广泛的是(μ + λ) - ES 算法,其种群概念如下:首先,在搜索开始时建立一个包含 μ 个体的初始种群 PA。接着,从初始总体开始,迭代计算一系列种群,在每次迭代中,从当前种群 PA 中生成 λ 个子群体。对于每种情况,使用以下三个步骤来生成子种群:
a)从当前 PA 中选取两个没有偏见的个体作为父代用于重组。
b)通过所选父代的重组,产生一个新个体。
c)对新个体进行变异和评估。
经过上述迭代,计算子种群和父种群的总误差。通过对误差进行排序,从 λ 个子代和μ个PA代组成的集合中选择误差最小的向量作为下一代 PA+1。重复上述迭代,直至到达最小精度要求。
本文所提出的模型与现有图像描述模型不同之处在于,本文侧重于有效地结合视觉注意力和文本注意力以充分发挥二者的优势。此外,本文还提出了一种演化神经网络更有效地利用图像信息进行图像描述来弥补直接将图像信息输入解码器的缺陷。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值