多模态_岳额不到五的博客-CSDN博客

多模态

关注

关注数：文章数：11 文章阅读量：12968 文章收藏量：75

作者: 岳额不到五

这个作者很懒，什么都没留下…

展开

Socializing the Videos: A Multimodal Approach for Social Relation Recognition

无

原创 2022-09-21 17:06:35 · 168 阅读 · 0 评论
Linking the Characters: Video-oriented Social Graph Generation via Hierarchical-cumulative GCN

无

原创 2022-09-21 16:27:23 · 557 阅读 · 0 评论
2021-iccv-Face, Body, Voice: Video Person-Clustering with Multiple Modalities

Contributions:提出一种多模态人物聚类方法，使用face、body、voice提出Video Person Clustering(VPC)数据集。在原有数据集的基础上（face），增加body、voice标注。视频均来自电影和电视剧Methods：三步聚类法注：数据集、代码可下载......

原创 2022-05-24 10:59:08 · 151 阅读 · 0 评论
电影/video summarization

1.《2021-aaai-Movie Summarization via Sparse Graph Construction》主要思想：利用电影的转折点，进行电影内容总结步骤：电影的每个scene代表图中的一个节点。首先构建全连接图，然后根据scene之间的相似性（公式1和公式3）（text相似性和audiovisual相似性，公式2），为每个节点动态挑选k个邻居节点。将所有节点通过一层GCN蒸馏学习。利用唯一有转折点标记的数据集TRIPOD，先获得一个概率分布q(yt|D)，在用两个loss

原创 2022-03-16 11:23:16 · 466 阅读 · 0 评论
多模态global-local文章调研

多模态global-local文章调研1. 《T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval》这篇文章讲的比较全面：添加链接描述1.1 全局特征：max pooling+self-Gating1.2 局部特征：全连接+一层Transformer2. 《Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning》论文讲解：添加链接描述2

原创 2022-03-14 17:15:33 · 4566 阅读 · 0 评论
理解vilbert

输入bert的word embedding可以通过torch.nn.Embedding提取链接: torch.nn.Embeddingtransformer的：链接: link.I. One-Hot EncodingII. Word EmbeddingIII. Position Embedding从transformer到bert链接: link.

原创 2022-02-28 12:32:33 · 162 阅读 · 0 评论
多模态、跨模态融合、检索、匹配

如何做好BERT多模态任务基于BERT的多模态应用：图像，视频如何通过BERT处理: linkBERT跨模态预训练: link.AAAI 2021 | 多模态最新进展解读: link.

原创 2021-07-13 15:26:17 · 2637 阅读 · 0 评论
多模态自监督论文

多模态情感分析多个任务，一个多模态任务和三个单模态任务。多模态任务监督学习，单模态任务自监督学习主要创新点：前两条都是针对单模态学习任务的。大模型可能是参考文献Yu et al. (2020a), 参考的文章也是一个多模态和多个单模态组成的多任务学习模型，但都是监督学习。提供了代码...

原创 2021-05-08 15:31:40 · 1183 阅读 · 0 评论
如何将多模态特征载入模型

《Learning a Text-Video Embedding fromIncomplete and Heterogeneous Data》所有数据存成.npy，然后np.load(.npy)： class LSMDC(Dataset): def __init__(self, clip_path, text_features, audio_features, flow_path, face_path, **): self.visual_features = .

原创 2021-06-02 16:30:52 · 739 阅读 · 0 评论
多模态情感分析

多模态分析数据集（Multimodal Dataset）不只情感分析《Multi-task Learning for Multi-modal Emotion Recognition and Sentiment Analysis》阅读笔记

原创 2021-05-12 09:00:14 · 2276 阅读 · 0 评论
《Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering》

知识点记忆网络 Memory Networks阅读笔记笔记1笔记2

原创 2021-05-11 10:14:41 · 63 阅读 · 0 评论

多模态

作者: 岳额不到五

Socializing the Videos: A Multimodal Approach for Social Relation Recognition

Linking the Characters: Video-oriented Social Graph Generation via Hierarchical-cumulative GCN

2021-iccv-Face, Body, Voice: Video Person-Clustering with Multiple Modalities

电影/video summarization

多模态global-local文章调研

理解vilbert

多模态、跨模态 融合、检索、匹配

多模态自监督 论文

如何将多模态特征载入模型

多模态情感分析

《Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering》

多模态、跨模态融合、检索、匹配

多模态自监督论文