多模态融合
文章平均质量分 55
十二分热爱
这个作者很懒,什么都没留下…
展开
-
回归预测评估指标
转载:https://blog.csdn.net/guolindonggld/article/details/87856780原创 2021-01-27 17:10:05 · 137 阅读 · 0 评论 -
注意力机制
注意力机制的本质思想:source:我 是 中国人target: I am Chinese如果翻译单词I时,则Query为I,source中的 “我” “是” “中国人”都是K,而V代表每个source中输出的context vector,如果为RNN模型的话就是对应的状态向量;即key与value相同QKV是分别是embeding*Wq,Wk,Wv将Source中的构成元素想象成是由一系列的<Key,Value>数据对构成,此时给定Target中的某个元素Que...原创 2021-01-26 21:56:01 · 1290 阅读 · 0 评论 -
三元组损失函数
论文:FaceNet: A Unified Embedding for Face Recognition and Clustering来自CVPR2015人脸识别的一篇文章传统的基于CNN的人脸识别方法为:利用CNN的siamese网络来提取人脸特征,然后利用SVM等方法进行分类而这篇文章他们提出了一个方法叫FaceNet,他直接学习图像到欧式空间上点的映射,其中呢,两张图像所对应的特征的欧式空间上的距离直接对应着两个图像是否相似而2021AAAI文章Noise Estimation Usi原创 2021-01-26 11:35:03 · 2791 阅读 · 0 评论 -
Multimodal Compact Bilinear Pooling(MCB)多模态紧凑双线性池
出自:Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding分别提取对应模态的特征:对图片利用pre-train的CNN提取图片高层特征,对于文本则提取word-embeding,并通过lstm解码后的特征; 利用上个步骤得到的两个模态特征,分别利用Count Sketch方法进行逼近(降维),得到降维之后的特征; 将上述得到的特征分别进行FFT,将其变换至频域,并在频域作向原创 2021-01-16 10:50:24 · 2338 阅读 · 0 评论 -
Memory Fusion Network for Multi-view Sequential Learning注意力融合MFN
记忆融合网络MFN第一个组成部分:每个视图都被赋予一个LSTM函数组件独立编码每个视图第二个组成部分:Delta-memory Attention Network (DMAN) ,通过lstm系统来发现跨视图交互作用第三个组成部分:存储跨视图信息在多视图门控记忆视图N={l,v,a}第n个视图的输入数据Xn = 【xn]1.System of LSTMs对于第n个视图,分配的LSTM被表示为,t是时间戳每个LSTM的输出定义为System LSTM允许不同视图具.原创 2021-01-14 11:42:37 · 2114 阅读 · 2 评论 -
Multi-modal Circulant Fusion for Video-to-Language and Backward(MCF)同时使用vector和matrix
1.多模态循环融合(MCF)MCF的详细过程如图,x,y为不同模态特征向量,首先利用两个投影矩阵W1,W2将将特征投影到VC两个低维空间。然后利用V、C构造循环矩阵A和B为了使投影向量和循环矩阵中的元素充分作用,我们探索了两种不同的乘法运算1)在循环矩阵和投影向量之间使用矩阵乘法2)是让循环矩阵的投影向量和每行进行元素积最后通过一个投影矩阵W3,将F和G的利用element-wise sum转换为M2.MCF for Video Captioning开..原创 2021-01-13 19:38:56 · 975 阅读 · 0 评论 -
Adversarial Multimodal Representation Learning for Click-Through Rate Prediction(阿里点击率预测)(MARN)
将多模态间的特征分为共同特征和模态独有特征,缩小共同特征差距使之映射到共同子空间利用双鉴别器第一个鉴别器用来识别多个模态的共同特征,并说明特征属于模态m的可能性p定义权重w = 1-p来将这个权重结合多模态给第二个鉴别器鉴别第二个鉴别器利用极大极小损失函数进行训练...原创 2021-01-06 21:35:25 · 1194 阅读 · 0 评论 -
LMF(Low-rank Multimodal Fusion)
低秩多模态融合提出的模型将权重分解为低秩因子,减少了模型中的参数数量。通过利用低秩权重张量和输入张量的并行分解来计算基于张量的融合,可以有效执行这种分解。这种方法能够随着模态的数量线性缩放张量表示是多模态融合的一种成功方法。他首先需要将输入表示转化成高维张量,然后将其映射回低维输出向量空间上面是TFM的思路而...原创 2020-12-27 18:01:57 · 5254 阅读 · 5 评论 -
基于矩阵-TFN
TFN组成包括三部分:模态嵌入子网络:将单峰特征作为输入,并输出丰富的模态嵌入 张量融合层:使用来自模态嵌入的三重笛卡尔乘积,显式的模拟单模态,双模太和三模态相互作用 情感推理子网:以张量融合层的输出为条件并执行情感推理的网络...原创 2020-12-24 15:45:43 · 573 阅读 · 0 评论