多模态
岳额不到五
这个作者很懒,什么都没留下…
展开
-
Socializing the Videos: A Multimodal Approach for Social Relation Recognition
无原创 2022-09-21 17:06:35 · 167 阅读 · 0 评论 -
Linking the Characters: Video-oriented Social Graph Generation via Hierarchical-cumulative GCN
无原创 2022-09-21 16:27:23 · 553 阅读 · 0 评论 -
2021-iccv-Face, Body, Voice: Video Person-Clustering with Multiple Modalities
Contributions:提出一种多模态人物聚类方法,使用face、body、voice提出Video Person Clustering(VPC)数据集。在原有数据集的基础上(face),增加body、voice标注。视频均来自电影和电视剧Methods:三步聚类法注:数据集、代码可下载......原创 2022-05-24 10:59:08 · 150 阅读 · 0 评论 -
电影/video summarization
1.《2021-aaai-Movie Summarization via Sparse Graph Construction》主要思想:利用电影的转折点,进行电影内容总结步骤:电影的每个scene代表图中的一个节点。首先构建全连接图,然后根据scene之间的相似性(公式1和公式3)(text相似性和audiovisual相似性,公式2),为每个节点动态挑选k个邻居节点。将所有节点通过一层GCN蒸馏学习。利用唯一有转折点标记的数据集TRIPOD,先获得一个概率分布q(yt|D),在用两个loss原创 2022-03-16 11:23:16 · 463 阅读 · 0 评论 -
多模态global-local文章调研
多模态global-local文章调研1. 《T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval》这篇文章讲的比较全面:添加链接描述1.1 全局特征:max pooling+self-Gating1.2 局部特征:全连接+一层Transformer2. 《Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning》论文讲解:添加链接描述2原创 2022-03-14 17:15:33 · 4558 阅读 · 0 评论 -
理解vilbert
输入bert的word embedding可以通过torch.nn.Embedding提取链接: torch.nn.Embeddingtransformer的:链接: link.I. One-Hot EncodingII. Word EmbeddingIII. Position Embedding从transformer到bert链接: link.原创 2022-02-28 12:32:33 · 159 阅读 · 0 评论 -
多模态、跨模态 融合、检索、匹配
如何做好BERT多模态任务基于BERT的多模态应用:图像,视频如何通过BERT处理: linkBERT跨模态预训练: link.AAAI 2021 | 多模态最新进展解读: link.原创 2021-07-13 15:26:17 · 2623 阅读 · 0 评论 -
多模态自监督 论文
多模态情感分析多个任务,一个多模态任务和三个单模态任务。多模态任务监督学习,单模态任务自监督学习主要创新点:前两条都是针对单模态学习任务的。大模型可能是参考文献Yu et al. (2020a), 参考的文章也是一个多模态和多个单模态组成的多任务学习模型,但都是监督学习。提供了代码...原创 2021-05-08 15:31:40 · 1176 阅读 · 0 评论 -
如何将多模态特征载入模型
《Learning a Text-Video Embedding fromIncomplete and Heterogeneous Data》所有数据存成.npy,然后np.load(.npy): class LSMDC(Dataset): def __init__(self, clip_path, text_features, audio_features, flow_path, face_path, **): self.visual_features = .原创 2021-06-02 16:30:52 · 737 阅读 · 0 评论 -
多模态情感分析
多模态分析数据集(Multimodal Dataset)不只情感分析《Multi-task Learning for Multi-modal Emotion Recognition and Sentiment Analysis》阅读笔记原创 2021-05-12 09:00:14 · 2270 阅读 · 0 评论 -
《Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering》
知识点记忆网络 Memory Networks阅读笔记笔记1笔记2原创 2021-05-11 10:14:41 · 62 阅读 · 0 评论