多模态在内容理解的应用

2020 年机器学习趋势:建立统一的跨媒体多模态内容理解内核

描述类任务(表示,转换,对齐,融合)

视频描述

1 Predicting Visual Features from Text for Image and Video Caption Retrieval:输入原始图像,图像标题和众多描述图像的句子,将它们映射到隐空间并合成视频描述。
在这里插入图片描述2 Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video
Captioning:输入原始视频和视频的文字索引来进行视频描述工作。
在这里插入图片描述3 Multimodal Dual Attention Memory for Video Story Question Answering:这是一个 VQA 任务,把原始视频,视频的描述和问题输入最终得到答案。
在这里插入图片描述4 Dual-Stream Recurrent Neural Network for Video Captioning:
将原始的视频和静态的图像(用来描述视频)一起输入,得到对视频的描述。
在这里插入图片描述

医疗问答

1 Ensemble of Streamlined Bilinear Visual Question Answering Models for the ImageCLEF 2019 Challenge in the Medical Domain:简单把图像和问题输入得到答案。
在这里插入图片描述2 Multimodal Explanations: Justifying Decisions and Pointing to the Evidence:把 VQA 框架用于关于健康问题的问答。
在这里插入图片描述

分析类任务(表征,融合)

视频分类

分类框架:

Divide, Conquer and Combine: Hierarchical Feature Fusion Network with Local and Global Perspectives for Multimodal Affective Computing:
这是一个较为通用的多模态视频分类任务网络,将特征组合成矩阵,采用 outer-product 计算任意组合的乘积,为避免外积太长,用滑动窗对自向量求外积。
在这里插入图片描述1 Towards Good Practices for Multi-modal Fusion in Large-scale Video Classification: 将视频和代表性的音频文件一起输入进行视频分类。
在这里插入图片描述2 Modeling Multimodal Clues in a Hybrid Deep Learning Framework for Video Classification: 将空间视频、运动视频、音频和原视频一起输入,得到结果。
在这里插入图片描述3 Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification:
同样还是将图像、视频和音频异构信息一起输入,得到视频分类的结果。

在这里插入图片描述

情感分类:

1 Contextual Inter-modal Attention for Multi-modal Sentiment Analysis:将文字,视频和声音输入来对人的情感进行分类。
在这里插入图片描述2 Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling:将图像、标题和文字放入模型进行情感分类。

在这里插入图片描述

假新闻识别

1 Exploiting Multi-domain Visual Information for Fake News Detection:将图像和对图像词频的统计输入来进行假新闻分类。
在这里插入图片描述2 EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection:将图像和文字输入来对假新闻进行检测。
在这里插入图片描述3 A Deep Learning Approach for Multimodal Deception Detection:将视频、音频、文字和高频词放入模型进行假新闻识别。
在这里插入图片描述

图像/视频质量评价

1 A deep learning framework for quality assessment and restoration in video endoscopy:将视频和视频检测结果输入来进行质量评价。
在这里插入图片描述

标题党检测

1 Characterizing Clickbaits on Instagram:将图像、标题和文字描述输入模型来分类是否是标题党。
在这里插入图片描述

社交网络的实体匹配

1 Multimodal Learning of Social Image Representation by Exploiting Social Relations:运用图像和相关文字注释对个体进行分类分组。
在这里插入图片描述2 From content to links: Social image embedding with deep multimodal model:跟上一篇文章类似,也是利用相关图像和文字进行社交群体分类。

在这里插入图片描述

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值