零基础学nlp【5】 hard attention 和 soft attention(Show, attend and tell: Neural image caption generation )

本文深入探讨了神经图像caption生成中hard attention和soft attention的概念。通过encoder-decoder架构,利用CNN提取图像特征,RNN生成标题。hard attention采用one-hot编码,聚焦图像特定区域;soft attention则通过softmax分布对整个图像进行关注。训练策略优化了不同长度标题的批处理。实验证明,soft attention模型能在多个数据集上取得优秀结果。
摘要由CSDN通过智能技术生成

零基础学nlp【5】 hard attention 和 soft attention

论文:Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//International conference on machine learning. 2015: 2048-2057.

1 主要内容

文章主要基于由图片生成标题的任务。对于这样的任务,采用了encoder-decoder结构,其中encoder采用了一个深层卷积神经网络,标题的生成采用循环神经网络。通过卷积神经网络提取图像的信息,建立注意力模型,用于选择图像信息的某一部分,输入循环神经网络进行标题生成。整体框架如下所示
在这里插入图片描述
其中attention模型用于生成输入rnn的向量,文章采用了两种方法,第一个是 hard attention命名主要原因是其中的注意力模型是硬编码的,即one-hot形(只有一个是1其他都是0),所以当前时刻的rnn只注意在某一块图片上。而soft attention则是软编码的,通过一个softmax层,所以模型注意在整个图片上。

2 细节

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值