《Supervised Multimodal Bitransformers for Classifying Images and Text》阅读笔记

最新推荐文章于 2024-07-15 12:30:08 发布

小眯睁眼

最新推荐文章于 2024-07-15 12:30:08 发布

阅读量1.1k

点赞数

分类专栏：自然语言处理文章标签：自然语言处理深度学习机器学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_39589569/article/details/107386073

版权

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

摘要由CSDN通过智能技术生成

《Supervised Multimodal Bitransformers for Classifying Images and Text》阅读笔记

1 Why
2 What
3 How
- 3.1 文本特征
- 3.2 图片特征
4 Result
5 Idea
6 Relatives

1 Why

现在越来越多模态化，文字信息通常夹带着图像、声音、视频以及各种传感器的信号。但是很多的多模态数据是以文本为主体。

2 What

本文提出了监督的多模态bitransformer模型，其利用目前最先进的卷积神经网络架构，增强了自然语言处理的纯文本表征，以此融合图片和文本信息，主要用于分类任务。

3 How

在这里插入图片描述
本文是以Bert为主体模型外加一层全连接层做分类器，利用bert的输入特性，提供多模态特征的输入空间。本文对文本的处理是直接使用预训练好的bert，对图片的处理是使用预训练好的ResNet-152的输出作为图片的特征，输入到bert中。

3.1 文本特征

直接使用bert输入。

3.2 图片特征

将ResNet最后的pooling层的每个feature map展开为图片的特征，所以一张图片可以得到N = KM 个特征embedding,每个embedding都是由K*M展开得到2048维的，然后再使用一个W矩阵映射为N个d维的embedding作为一张图片的特征输入到Bert中。

4 Result

待续。。。

5 Idea

本文是利用了bert的输入特性，和卷积神经网络的特性，直接将特征输

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
《Supervised Multimodal Bitransformers for Classifying Images and Text》阅读笔记

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。