浅谈 image caption 相关知识点 及 优秀链接

框架
encoder-decoder
  1. 中间向量 长度是固定的(缺陷)
    ( 语义向量无法完全表示整个序列的信息,先输入的内容携带的信息会被后输入的信息稀释掉 )
  2. 输入信息 太长,会丢失信息(缺陷)
Seq2Seq
  1. 输入 输出 序列长度可变
    • 输入输出 固定长度,长度稍微变化,补零
encoder-decoder & Seq2Seq
  1. Seq2Seq 属于 Encoder-Decoder 的大范畴
  2. Seq2Seq 更强调目的,Encoder-Decoder 更强调方法
Attention
  1. 解决 信息过长,信息丢失
  2. Encoder 不将 输入序列编码 为固定长度 的中间向量C,
  3. 编码成向量序列
生成顺序:
  1. 解决输入输出是固定长度,长度有变化,补零: Seq2Seq
  2. 解决中间向量固定:Attention

在这里插入图片描述

优化
  1. SGD(minibatch stochastic gradient descent):负责采样
  2. Adadelta:负责优化下降方向
改进
  1. attention机制
  2. visual sentinel 哨兵机制
  3. CNN改进
  4. 强化学习训练模型
  5. 目标检测

在这里插入图片描述


在这里插入图片描述
图片出自:Image2Caption


优秀论文解析链接

Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning --------文章 1(内含代码链接) ------- 文章 2


代码复现 - 单文

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
Show, Control and Tell: A Framework for Generating Contro

  • 11
    点赞
  • 73
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值