![](https://img-blog.csdnimg.cn/20210311113848916.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
论文笔记
文章平均质量分 89
笔者会将阅读过的论文,尽量以自己的语言整理为笔记,提取核心要点,力求简洁易懂,以便回看。
Hoshino Ren
这个作者很懒,什么都没留下…
展开
-
『论文笔记』Introspective Distillation for Robust Question Answering
Introspective Distillation for Robust Question Answering一句话总结作者希望模型可以同时在ID和OOD场景下获得良好的表现,通过对专门捕捉ID和OOD偏置的两位老师模型进行知识融合(内省)并蒸馏出一个学生模型来完成这种平衡。导论Motivation:作者先是点出QA领域普遍存在利用spurious correlation的现象(即Bias现象),比如VQA利用问题与答案之间的linguistic correlation,extracti原创 2021-12-14 12:29:54 · 445 阅读 · 2 评论 -
『论文笔记』On the Value of Out-of-Distribution Testing: An Example of Goodhart‘s Law
本文点出了目前领域在使用VQA-CP评估时的三个主要问题,并用随机预测做实验打脸一众方法,提倡众人反思并合理利用VQA-CP进行评估。原创 2021-12-08 19:05:33 · 177 阅读 · 0 评论 -
『论文笔记』In Defense of Grid Features for Visual Question Answering
In Defense of Grid Features for Visual Question Answering一句话总结网格特征不仅准确度不输给区域特征,推理速度上又快出一个量级。导论本文主要探讨了在VQA等视觉语言任务中,使用什么类型的图像特征可以达到更好的效果。区域特征(Regions)还是网格特征(Grids)?在以VQA为代表的一系列视觉语言任务中,Bottom-Up注意力方法得到了广泛应用,并取得了优异的效果。这种方法将图像表示为一组基于Bounding box的区域特征,原创 2021-11-29 19:38:59 · 2517 阅读 · 0 评论 -
『论文笔记』Visually Grounded Reasoning across Languages and Cultures
Visually Grounded Reasoning across Languages and Cultures一句话总结作者认为以ImageNet为代表的数据集由于数据均来源自英文词库,天生带有英语的偏置,因此提出了多文化多语言的数据集MaRVL,以推动领域发展。关于本文:来自EMNLP 2021的Best Paper,今年EMNLP的长、短、demo最佳论文均为数据集相关文章,可见算法做到一定程度之后,领域自然又会将目光聚焦在数据身上,算法-数据集-算法-数据集,或许是一个必然的上升螺旋原创 2021-11-04 17:00:01 · 598 阅读 · 0 评论 -
『论文笔记』Designing and Interpreting Probes with Control Tasks
Designing and Interpreting Probes with Control Tasks一句话总结提出selective与Control tasks用来评估 探针是否真的能验证网络学习到了某种性质,抑或只是探针拟合了结果。导论Motivation:NLP任务都存在着一个常见的问题:我的神经网络有没有学到某个性质Y?为了验证这一问题,常常会设计一种探针任务(Probe Task),如下图所示:将句子输入到ELMo中,得到单词的上下文词表示,接着使用Probe函数(一般是原创 2021-11-01 14:24:14 · 157 阅读 · 0 评论 -
『论文笔记』Roses are Red, Violets are Blue... But Should VQA expect Them To?
Roses are Red, Violets are Blue… But Should VQA expect Them To?一句话总结提出新的benchmark GQA-OOD,旨在划分高频及低频(OOD)样本并测量模型在不同条件(in-distribution、out-of-distribution)下的性能一点题外话本文的题目改编自英文中一首脍炙人口的打油诗:”Roses are red,violets are blue,sugar is sweet and so are you.“原创 2021-10-27 16:59:14 · 789 阅读 · 0 评论 -
『论文笔记』OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge
OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge一句话总结提出数据集OK-VQA,其中的问题均需要根据外部知识推理才能回答。导论Motivation:现有VQA数据集中的大多数问题不需要逻辑推理或者与外部知识的联系,仅仅是有关数量、视觉属性以及物体检测的简单问题。Contribution:本文提出一个 只包含需要外部知识回答的问题 的数据集OK-VQA(Outside Knowledg原创 2021-10-21 14:03:17 · 1418 阅读 · 0 评论 -
『论文笔记』Semantic Equivalent Adversarial Data Augmentation for Visual Question Answering
Semantic Equivalent Adversarial Data Augmentation for Visual Question Answering一句话总结以维持语义正确性为前提,生成对抗样本进行VQA图像及文本的数据增强导论Motivation:近期工作表明VQA算法的性能一定程度上依赖于训练数据的数量,现存VQA算法能从更多的训练数据中受益,这意味着无需人工标注的数据增强是提升算法性能的一个好方向。现存的数据增强方法主要是通过Data warping和Oversampli原创 2021-03-26 14:03:23 · 377 阅读 · 3 评论 -
『论文笔记』Deconfounded Image Captioning
Deconfounded Image Captioning一句话总结作者认为图像描述等视觉语言类任务中偏置的罪魁祸首是预训练数据集,因此利用前后门调整方式去混杂。导论Motivation:最近的视觉语言社区越来越关注数据集偏置问题,陷入了”做一个数据集“;”有偏置“;”做一个新的“循环之中,尽管也有一些工作开始着眼于设计不受偏置影响的模型,但是却始终没有人探究偏置背后的原因究竟是什么。作者以图像描述任务为案例,试图探究这一原因,并得出”真正的恶魔存在于预训练数据集中“这一结论。Cont原创 2021-03-22 17:13:53 · 729 阅读 · 0 评论 -
『论文笔记』Two Causal Principles for Improving Visual Dialog
Two Causal Principles for Improving Visual DialogMotivation:受益于最近一段时间VQA领域在Encoder-Decoder框架方面取得的成果,视觉对话任务中模型性能也得到了显著的提升。当前社区一直把VisDial当作VQA的姊妹任务,只是在VQA的基础上添加了对话历史(History)输入。然而作者认为,VisDial本质上并非带有History的VQA。作者以因果推断的角度入手,引入两条因果原则,将所有的VisDial基线模型提升到SOTA。原创 2021-03-11 12:11:45 · 571 阅读 · 1 评论