CNN
图像标题生成
李
勇
1,2,3
,成红红
1,2,3
,梁新彦
1,2,3
,郭
倩
1,2,3
,钱宇华
1,2,3
【摘
要】
摘要:图像标题生成任务需要生成一个有意义的句子来准确地描述该
图像的内容,而现有研究通常采用卷积神经网络编码图像信息、循环神经网络
来编码文本信息,由于循环神经网络的“串行特性”,导致模型的性能低。为
解决该问题,基于卷积神经网络来构建一种模型,采用不同结构的卷积神经网
络来同时处理两个模态的数据,得益于卷积运算的“并行特性”,该模型的运
行效率有明显提升。在两个公开数据集上进行了实验,实验结果在指定的评价
指标上也有一定的提升,表明了该模型对于处理图像标题生成任务的有效性。
【期刊名称】
西安电子科技大学学报(自然科学版)
【年
(
卷
),
期】
2019(046)002
【总页数】
6
【关键词】
多模态数据;图像标题;长短期记忆;神经网络
网络出版时间:
2018-12-13
基金项目:国家自然科学基金
(61672332,61432011,U1435212);
山西省教育
厅高等学校中青年拔尖创新人才支持计划
(02150116072021);
山西省回国留学
人员科研项目
(2017023)
网
络
出
版
地
址
:
http://kns.cnki.net/kcms/detail/61.1076.TN.20181212.1644.006.html
图像标题生成任务的挑战在于学习到不同模态数据之间的关联关系。该任务需
要识别出图像中所包含的对象
(
包括人物、动物甚至背景等
)
,并学习到该图像
对应标题语句中的实体和图像中对象两者之间的相关性。针对上述问题,研究