多模态在内容理解的应用

最新推荐文章于 2024-05-13 17:53:04 发布

此生辽阔

最新推荐文章于 2024-05-13 17:53:04 发布

阅读量2.2k

点赞数

分类专栏：机器学习多模态

原文链接：https://zhuanlan.zhihu.com/p/102015103?from_voters_page=true

版权

机器学习同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

多模态

5 篇文章 4 订阅

订阅专栏

2020 年机器学习趋势：建立统一的跨媒体多模态内容理解内核

描述类任务（表示，转换，对齐，融合）

视频描述

1 Predicting Visual Features from Text for Image and Video Caption Retrieval：输入原始图像，图像标题和众多描述图像的句子，将它们映射到隐空间并合成视频描述。
在这里插入图片描述 2 Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video
Captioning：输入原始视频和视频的文字索引来进行视频描述工作。
3 Multimodal Dual Attention Memory for Video Story Question Answering：这是一个 VQA 任务，把原始视频，视频的描述和问题输入最终得到答案。
在这里插入图片描述 4 Dual-Stream Recurrent Neural Network for Video Captioning:
将原始的视频和静态的图像（用来描述视频）一起输入，得到对视频的描述。

医疗问答

1 Ensemble of Streamlined Bilinear Visual Question Answering Models for the ImageCLEF 2019 Challenge in the Medical Domain:简单把图像和问题输入得到答案。
在这里插入图片描述 2 Multimodal Explanations: Justifying Decisions and Pointing to the Evidence：把 VQA 框架用于关于健康问题的问答。

分析类任务（表征，融合）

视频分类

分类框架：

Divide, Conquer and Combine: Hierarchical Feature Fusion Network with Local and Global Perspectives for Multimodal Affective Computing:
这是一个较为通用的多模态视频分类任务网络，将特征组合成矩阵，采用 outer-product 计算任意组合的乘积，为避免外积太长，用滑动窗对自向量求外积。
在这里插入图片描述 1 Towards Good Practices for Multi-modal Fusion in Large-scale Video Classification: 将视频和代表性的音频文件一起输入进行视频分类。
2 Modeling Multimodal Clues in a Hybrid Deep Learning Framework for Video Classification: 将空间视频、运动视频、音频和原视频一起输入，得到结果。
在这里插入图片描述 3 Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification:
同样还是将图像、视频和音频异构信息一起输入，得到视频分类的结果。

在这里插入图片描述

情感分类：

1 Contextual Inter-modal Attention for Multi-modal Sentiment Analysis：将文字，视频和声音输入来对人的情感进行分类。
在这里插入图片描述 2 Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling：将图像、标题和文字放入模型进行情感分类。

在这里插入图片描述

假新闻识别

1 Exploiting Multi-domain Visual Information for Fake News Detection：将图像和对图像词频的统计输入来进行假新闻分类。
在这里插入图片描述 2 EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection:将图像和文字输入来对假新闻进行检测。
3 A Deep Learning Approach for Multimodal Deception Detection：将视频、音频、文字和高频词放入模型进行假新闻识别。
在这里插入图片描述

图像/视频质量评价

1 A deep learning framework for quality assessment and restoration in video endoscopy:将视频和视频检测结果输入来进行质量评价。
在这里插入图片描述

标题党检测

1 Characterizing Clickbaits on Instagram:将图像、标题和文字描述输入模型来分类是否是标题党。
在这里插入图片描述

社交网络的实体匹配

1 Multimodal Learning of Social Image Representation by Exploiting Social Relations:运用图像和相关文字注释对个体进行分类分组。
在这里插入图片描述 2 From content to links: Social image embedding with deep multimodal model：跟上一篇文章类似，也是利用相关图像和文字进行社交群体分类。

在这里插入图片描述

此生辽阔

关注

0
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
多模态在内容理解的应用

2020 年机器学习趋势：建立统一的跨媒体多模态内容理解内核描述类任务（表示，转换，对齐，融合）视频描述1 Predicting Visual Features from Text for Image and Video Caption Retrieval：输入原始图像，图像标题和众多描述图像的句子，将它们映射到隐空间并合成视频描述。2 Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions f
复制链接

扫一扫