《Supervised Multimodal Bitransformers for Classifying Images and Text》阅读笔记

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar
摘要由CSDN通过智能技术生成

《Supervised Multimodal Bitransformers for Classifying Images and Text》阅读笔记

1 Why

现在越来越多模态化,文字信息通常夹带着图像、声音、视频以及各种传感器的信号。但是很多的多模态数据是以文本为主体。

2 What

本文提出了监督的多模态bitransformer模型,其利用目前最先进的卷积神经网络架构,增强了自然语言处理的纯文本表征,以此融合图片和文本信息,主要用于分类任务。

3 How

在这里插入图片描述
本文是以Bert为主体模型外加一层全连接层做分类器,利用bert的输入特性,提供多模态特征的输入空间。本文对文本的处理是直接使用预训练好的bert,对图片的处理是使用预训练好的ResNet-152的输出作为图片的特征,输入到bert中。

3.1 文本特征

直接使用bert输入。

3.2 图片特征

将ResNet最后的pooling层的每个feature map展开为图片的特征,所以一张图片可以得到N = KM 个特征embedding,每个embedding都是由K*M展开得到2048维的,然后再使用一个W矩阵映射为N个d维的embedding作为一张图片的特征输入到Bert中。

4 Result

待续。。。

5 Idea

本文是利用了bert的输入特性,和卷积神经网络的特性,直接将特征输

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值