零基础学nlp【5】 hard attention 和 soft attention
1 主要内容
文章主要基于由图片生成标题的任务。对于这样的任务,采用了encoder-decoder结构,其中encoder采用了一个深层卷积神经网络,标题的生成采用循环神经网络。通过卷积神经网络提取图像的信息,建立注意力模型,用于选择图像信息的某一部分,输入循环神经网络进行标题生成。整体框架如下所示
其中attention模型用于生成输入rnn的向量,文章采用了两种方法,第一个是 hard attention命名主要原因是其中的注意力模型是硬编码的,即one-hot形(只有一个是1其他都是0),所以当前时刻的rnn只注意在某一块图片上。而soft attention则是软编码的,通过一个softmax层,所以模型注意在整个图片上。