1.Deep Convolutional Neural Networks for Image Classification: A Comprehensive Review
相应描述
DCNN用于从图片中提取语义表述,而RNN用于图像-标签之间和标签-标签之间的关系进行建模。
2.Image captioning and visual question answering based on attributes and external knowledge
相应描述
这种端到端的CNN-RNN方法忽略了图像到词的映射,这是前面详细介绍的许多图像描述系统中的一个重要步骤。CNN-RNN方法的优点是能够生成更广泛的标签,可以端到端地进行训练,并且在基准上优于以前的方法。然而,目前还不清楚其中中高级表示的影响是什么,特别是RNN语言模型可能在多大程度上起到了补偿作用。