![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
paper
文章平均质量分 91
两面包+芝士
主研多模态方向,包括对齐,融合,情感分析,命名实体识别,关系抽取,目标检测,图像描述等
展开
-
两篇2023 ICLR多模态论文分享(模态互补性对多模态鲁棒性影响 与 对多模表示学习有效的单模学习)
本文讨论了模态互补性在多模态鲁棒性中的重要性,并基于信息论提出了一种数据集层面量化度量,用于量化不同模态之间有多少互补信息,以及这些信息对预测标签有多大贡献。该指标基于互信息神经估计器(MINE)来计算。提出了一个两阶段pipeline,分成数据生成阶段和度量计算阶段。在数据生成阶段,作者生成具有受控模态互补性的数据集。在度量计算阶段,作者使用生成的数据集计算度量并分析结果。,并通过实验验证了其有效性。此外,本文还讨论了各种相关主题,如变压器、对抗性示例和深度学习模型。原创 2023-03-29 17:47:01 · 4430 阅读 · 3 评论 -
如何使用多类型数据预训练多模态模型?
本文介绍了多模态模型优化中的引入多种类型数据的研究方向。近期的论文中,这类工作表多,是目前业内研究的热点,也是能够显著提高多模态模型效果的方法。转载 2022-07-20 17:15:54 · 1980 阅读 · 2 评论 -
PL-Marker(ACL 2022)——信息抽取(NER+RE)新SOTA,论文浅析与代码浏览
动机:之前的实体和关系提取工作专注于研究如何从预训练的编码器中获得更好的span表示。但却忽略了span(pairs)之间的相互关系。贡献:提出了一种名为Packed Levitated Markers (PL-Marker)新的span表示方法 。目前, span representation提取的方法主要分为三种:T-Concat、Solid Marker、Levitated Marker。T-ConcatT-Concat 就是将span的边界 token(开始和结束)的嵌入拼接起来用以表示span原创 2022-07-14 10:08:25 · 9311 阅读 · 2 评论 -
论文笔记:DETR: End-to-End Object Detection with Transformers (from 李沐老师and朱老师)
先前广泛使用的检测模型将detection通过等将几何预测任务间接转化为回归/分类任务去解决问题,也受限于postprocessing。Transformer作NLP Decoder就用自回归生成,而DETR则是直接输出结果,一是快,二是图片无须依靠顺序回归,每个bounding box结果没有相联系的关系而于2020 ECCV上DETR这篇的里程碑式的目标检测论文将Transformer is all you need运用到了Object Detection任务上来,直接利用Transformer这种全局原创 2022-06-21 19:45:00 · 1952 阅读 · 0 评论 -
论文精读:ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition
论文地址论文代码提出ITA将图像特征多层次对齐到文本空间中(更好利用transformer model,多层次分别是局部-目标检测器,全局-图像描述,字符级-OCR),再concatenate T input 得到CrossModal input加入到Feed forward和ATT中达到Cross-View Alignment,使得两个模态输入View的输出分布的KL散度最小化。[核心:专注于整合视觉信息,通过有效地对齐视觉和文本信息来改进输入Tokens的表示。]PS:其实就是将视觉信息转为文本形式(原创 2022-06-07 10:14:49 · 1624 阅读 · 0 评论 -
论文精读:Joint Multi-modal Aspect-Sentiment Analysis with Auxiliary Cross-modal Relation Detection
1.JML方法首先定义了联合多模态方面集情感分析任务。在给定数据样例D={(X_n,I_n,A_n,S_n)}n=1~N的情况下,X为长为k的单词序列,I是的图片。而联合任务即是同时抽取方面术语list A(m个),并对这m个aspect进行分类的sentiment list S。其实就是联合抽取方面术语和其对应的情感(ATE+SC),基于正确的Aspect来predicate sentiment。【 the goal of JMASA( Joint MultimodalAspect-Sentimen原创 2022-05-31 15:45:17 · 1202 阅读 · 2 评论 -
图文融合模型(续) and VQA过往简述
一.ALBEF(对比学习用cosine对一个batch的样本做个交叉熵)思考点1 图文对比学习可以用相似度吗,就CLIP和FLIP那样的,或者不是单纯交叉熵,可以用focal loss或者一些别的,比如说根据多模态贡献度来决定各个损失更新方向,【参考cvpr 2022 oral的一篇论文:多模态学习中的贡献不平衡问题】本文是维护了两个队列来存储动量单模态编码器的最新的M个图像-文本表示动态模型各个特征归一化,代替原本模型的特征计算概率分布H是交叉熵函数,也可以看成InfoNCE,即负对数原创 2022-05-20 15:45:05 · 1204 阅读 · 0 评论 -
论文泛读记录(多模情感分析/探测;厌恶语音探测;属性级情感分析;CVPR2022和ACL2022 三元组/对比学习/视觉语言预训练/机器翻译/预训练模型/机器阅读理解)
1.1 CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation Fusion NetworkJiajia Tang, Kang Li, Xuanyu Jin, Andrzej Cichocki, Qibin Zhao and Wanzeng Kong1.2 Multimodal Sentiment Detection Based on Multi-channel Graph Neura原创 2022-05-16 20:58:28 · 1440 阅读 · 0 评论 -
多模态关键任务与应用综述(从表示到融合,从协同学习到关键技术梳理)
冗余性 和 互补性 是多模态各种特性存在的基础1.双线性池化特征融合即输入两个模态的特征向量,输出融合后的向量。最常用的方法是拼接、按位乘、按位加。有些作者认为这些简单的操作效果不如外积/叉乘得tensor,不足以建模两个模态间的复杂关系。但外积计算存在复杂度过高的问题。双线性(Bilinear)就是向量外积的计算。双线性池化(Bilinear Pooling)是对双线性融合后的特征进行池化。例如LMF(Low-rank Multimodal Fusion),PTP (polynomialtensor原创 2022-04-18 15:39:23 · 8273 阅读 · 0 评论 -
多模态简述(情感分析)
文章目录定义跨模态与多模态检索挑战特征粒度多模态情感分析例子定义模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同,但都是描述同一事物或事件的。而我们在信息检索的需求往往不只是同一事件单一模态的数据,也可能需要其他模态的数据来丰富我们对同一事物或事件的认知,此时就需要跨模态检索来实现不同模态数据之间的检索。跨模态学习进行联合特征学习和跨模态关系建模,旨在有效地利用不同模态内容的相关性进行系统性能优化。跨模态与多模态检索在跨模态检索中,检索结果的模态和查询的模态原创 2021-12-07 15:30:00 · 4346 阅读 · 0 评论 -
2022 AAAI 多模态/情感分析/命名实体识别/(信息抽取)关系抽取/知识图谱(知识蒸馏)/阅读理解 论文一览表
1.Tailor Versatile Multi-Modal Learning for Multi-Label Emotion RecognitionYi Zhang, Mingyuan Chen, Jundong Shen, Chongjun Wang2.Sentiment and Emotion-Aware Multi-Modal Complaint IdentificationApoorva Singh, Soumyodeep Dey, Anamitra Singha, Sriparna Sah原创 2022-04-08 15:33:39 · 7500 阅读 · 0 评论 -
VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis 论文笔记
VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis 论文笔记背景介绍基于评论的情感分析问题和想法VistaNet 方法层级注意力网络(HAN)词编码层句子编码层文档情感分类实验Q1:与多模态基线相比,这种视觉信息建模作为注意力的表现如何?Q2:该模型的各种架构组件的贡献是什么?Q3:增量添加图像有什么影响?贡献和结论背景介绍现在人手都有智能终端,随时随地都可以用来发布自己的信息,而人人也都可以随时随地原创 2021-12-19 01:30:00 · 1880 阅读 · 0 评论 -
2021 ACL 情感分析相关文章 一览
ACL的nlp,cv以及多模态方面的情感分析论文原创 2021-11-26 10:05:51 · 879 阅读 · 1 评论