NeverMoreH-CSDN博客

原创基于相似学习的目标跟踪方法

目录SiameseFC：ECCV2016SINT：CVPR2016CFNet：CVPR2017DSiam：ICCV2017EAST： ICCV2017SA-Siam：CVPR2018SiamRPN：CVPR2018SINT++：CVPR2018RASNet：CVPR2018DaSiamRPN：ECCV2018StructSiam：ECCV2018Siam-tri：ECCV2018&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;am

2018-11-29 19:08:43 3618 1

原创视频中的目标检测与跟踪综述

理解出错之处望不吝指正。这是选题阶段整理出的一个综述形式的PPT，其中有些内容都是在别的地方摘抄的，在最后一页PPT中列出了所有的参考文献。...

2018-09-13 09:15:52 11975 8

原创常用LaTex指令

目录表格跨行表格图片双栏图片单栏图片多图（左中右）字体加粗斜体公式加粗（向量）花体（只适用于大写字母）引用参考文献引用图片/表格/公式等脚注表格跨行表格\begin{table*}[htbp] \small \centering \setlength{\tabcolsep}{12mm}{ \begin{tabular}{lccc} \hline\noalign{\smallskip} \multicolumn{1}{l}{xxx} & \multicolumn{3}{c}{

2021-11-22 16:18:13 2029

原创 CVPR 2021 《Domain-robust VQA with diverse datasets and methods but no target labels》论文笔记

目录简介动机方法实验简介论文链接动机由于cv中的方法通常会过拟合数据集，所以很多学者尝试让这些方法对“域变化”鲁棒。但是，这些domain adaptation方法并不适用于VQA任务，主要由于三个原因：VQA任务的输入是多模态的；VQA方法由不同的模块构成了多个步骤，导致优化复杂；不同的VQA数据集的answer space是不同的。为了应对上述问题，作者主要做了以下三个方面的工作：量化不同VQA数据集之间的domain shift，并在image和question domain

2021-06-17 20:37:10 637

原创 CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记

目录简介动机方法实验简介本文出自张含望老师课题组。论文链接动机文章的第一句就说明了本文的动机，也就是，本文提出了一个新颖的注意力机制，可以消除现有的基于注意力的视觉语言方法中的混杂效应。混杂效应会造成有害的bias，误导注意力模块学到数据中的虚假相关，从而降低模型的泛化性。由于混杂是不可观测的，所以作者使用了前门调整策略实现因果干预。方法现有的方法中通常是建模公式1：作者认为，应该建模P(Y∣do(X))P(Y|do(X))P(Y∣do(X))。但是由于混杂的存在，P(Y∣do(X

2021-05-11 10:36:57 3234

原创因果推断 - 中介

目录基础知识中介公式版权：转载前请联系作者获得授权。参考书籍：《The Book of Why》——Judea Pearl、论文基础知识对于下面的因果图，MMM是XXX和YYY之间的中介。直接效应：扰动XXX而保持MMM恒定时，对YYY的影响即为直接效应。间接效应：保持XXX恒定，并将MMM增加到XXX增加1个单位的情况下MMM所能达到的量，此时YYY的增量即为XXX对YYY的间接效应。受控直接效应：CDE(0)=P(Y=1∣do(X=1),do(M=0))−P(Y=1∣do(X=0),d

2021-04-19 22:58:02 1269

原创因果推断 - 反事实

目录基础知识案例实战版权：转载前请联系作者获得授权。声明：部分内容出自因果关系之梯，已获得原作者授权。参考书籍：《The Book of Why》——Judea Pearl基础知识定义：对于包含外生变量UUU和内生变量XXX和YYY的SCM，形如YX=x(U=u)=yY_{X=x}(U=u)=yYX=x(U=u)=y表示“在U=uU=uU=u的情况下，如果X=xX=xX=x，则Y=yY=yY=y”。其中，YX=x(U=u)=yY_{X=x}(U=u)=yYX=x(U=u)=y可以简写为Yx(

2021-04-19 19:47:23 6438 2

原创因果推断 - 干预

目录基础知识干预前门准则、后门准则后门调整逆概率加权前门调整版权：转载前请联系作者获得授权。声明：部分内容出自因果关系之梯，已获得原作者授权。参考书籍：《The Book of Why》——Judea Pearl基础知识干预定义：将因果图中结点XXX的值修改为xxx，记为do(X=x)do(X=x)do(X=x)，可以简写为do(x)do(x)do(x)。性质：在对结点X进行干预时，会删除因果图中指向X的边。与“以变量为条件”的区别：表现形式：P(Y=y∣X=x)P(Y=y | X=x

2021-04-19 19:36:09 4842 10

原创因果推断 - 基础知识

目录因果关系之梯因果图的路径结构阻断d-分离混杂结构因果模型(SCM)因果关系之梯因果关系之梯可以分为三个层次（由低到高）：关联：X和Y是否相关，有没有互相影响。干预：如果改变X，Y会有什么变化？反事实：如果想让Y发生变化，能否通过改变X来实现？因果图的路径结构因果图的路径结构可以分为三种：链式：X -> Z -> Y叉式：X <- Z -> Y对撞：X -> Z <- Y在两种情况下，节点之间具有相关性（不相互独立）：有信息从一个节点流

2021-04-19 18:58:57 2259 1

原创 python输出到文件

通过改变sys.stdout使结果输出到文件。import sysimport osdef mkdir_if_missing(dir_path): try: os.makedirs(dir_path) except OSError as e: if e.errno != errno.EEXIST: raiseclass Logger(object): def __init__(self, fpath=None):

2021-04-07 09:22:38 455 1

原创 AAAI 2021 《Regularizing Attention Networks for Anomaly Detection in Visual Question Answering》论文笔记

目录简介动机方法实验简介本文是POSTECH和Kakao合作的一篇文章。论文链接动机异常检测有助于提升模型的稳定性和可靠性，也就是鲁棒性，OOD问题也可以视为一种异常。但是，单模态的异常检测（MSP）并不能轻易的使用到VQA这种多模态任务中。作者提出了一种基于attention的方法（MAP），可以对VQA中的五种异常进行检测。方法首先，作者将VQA任务中的异常情况分为五种，也就是五个TASK。TASK1~TASK3这三个TASK很好理解，就是在输入的视觉信息VVV和语言信息QQQ中，

2021-03-18 15:21:53 454

原创 EMNLP 2020 《MUTANT: A Training Paradigm for Out-of-Distribution Generalization in VQA》论文笔记

目录简介动机方法实验简介论文链接动机VQA中的语言先验问题，也可以说是OOD问题（Out-Of-Distribution）。使用额外的单独分支减轻模型学得语言先验的一类方法试图消除所有的Q-A bias，作者认为这是适得其反的。而本文的出发点是让模型关注正向bias，消除负面bias。正向bias如：对于“what is the color of xxx”问题，模型应回答“颜色”类答案，负面bias如：“香蕉是黄色的”这种语言先验。方法在我个人看来，本文方法可视为一种数据增强。对于数据集中的一个

2021-03-17 22:47:47 554 1

原创 arXiv 2021《Transformer in Transformer》论文笔记

目录简介动机方法实验简介本文出自华为诺亚方舟，作者是韩凯。文章链接动机本文动机是，在ViT基础上，编码patch内的pixel之间的结构信息。方法使用两个transformer，外transformer负责编码大小为16×1616 \times 1616×16的patch之间的关系，内transformer负责编码大小为4×44 \times 44×4的super-pixel之间的关系。实验本文方法的实验结果也很好。...

2021-03-08 23:00:26 3090

原创 2021.02.23 Visual QA论文阅读

目录[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering文章链接文章链接[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering文章链接本文的动机很明确，就是组合泛化。什么是组合泛化

2021-02-23 17:01:29 514 1

原创 Transformer、BERT学习笔记

目录TransformerBERT题目TransformerBERT题目Pre-training of Deep Bidirectional Transformers for Language Understanding下载链接

2021-02-20 20:01:20 386

原创 2021.02.18 Visual QA论文阅读

目录[2017][CVPR] Graph-Structured Representations for Visual Question Answering[2019][ICCV] Language-Conditioned Graph Networks for Relational Reasoning[2019][ICCV] Relation-Aware Graph Attention Network for Visual Question Answering[2020][CVPR] Multi-Modal

2021-02-18 20:39:53 667 3

原创 2021.02.05 Visual QA论文阅读

目录[2016][ECCV] Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering[2016][ECCV] Learning Models for Actions and Person-Object Interactions with Transfer to Question Answering[2016][ECCV] Ask, Attend and Answer:

2021-02-05 18:12:29 242

原创 2021.02.04 Visual QA论文阅读

目录[2016][CVPR] Where To Look: Focus Regions for Visual Question Answering[2016][CVPR] Yin and Yang: Balancing and Answering Binary Visual Questions[2016][CVPR] Where To Look: Focus Regions for Visual Question Answering文章链接本文的motivation很明确——knowing where

2021-02-04 23:05:16 312

原创 2021.02.03 Visual QA论文阅读

目录[2016][CVPR] Stacked Attention Networks for Image Question Answering[2016][CVPR] Visual7W: Grounded Question Answering in Images[2016][CVPR] Stacked Attention Networks for Image Question Answering文章链接本文出自CMU+微软研究院（何晓冬），应该是第一篇提出VQA需要多步推理的文章。本文的动机来自于：在V

2021-02-03 18:02:35 347

原创 2021.02.02 Visual QA论文阅读

目录[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction[2016][CVPR] Neural Module Networks[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction文章链接

2021-02-02 23:30:40 233 1

原创 2021.02.01 Visual QA论文阅读

目录[2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Image Question Answering[2015][NIPS] Exploring Models and Data for Image Question Answering[2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Imag

2021-02-01 21:52:52 407 1

原创 2021.01.30 Visual QA论文阅读

目录[2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images[2015][ICCV] Visual Madlibs: Fill in the blank Description Generation and Question Answering[2015][ICCV] VQA: Visual Question Answering[2015][ICCV] Ask Your Neurons

2021-01-30 18:49:04 376 1

原创 2021.01.29 Visual QA论文阅读

目录[2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input[2015][CVPR] VisKE: Visual Knowledge Extraction and Question Answering by Visual Verification of Relation Phrases[2014][NIPS] A Multi-World Approac

2021-01-29 17:36:05 376 2

原创 ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记

目录简介动机贡献方法实验简介文章链接动机现有的VQA方法可以分为两类，第一类侧重于对视觉和语言的跨模态联合建模，但是由于缺乏关系推理能力，在组合推理任务上的表现较差。第二类主要侧重于神经模块的设计，但是这类方法需要手工设计，在real-world数据集上难以适用（具有过多的目标类别和可能的推理action）。贡献方法实验...

2021-01-07 16:34:18 512 1

原创 Video Question Answering综述

目录引言选择型视频问答开放型视频问答选择型、开放型均可的视频问答结论参考文献引言视频问答是视觉语言领域较为新兴的一个课题，需要根据视频内容和问题进行分析，得出问题的答案。根据回答形式，可分为：一、选择型视频问答；二、开放型视频问答。根据方法的提出时间，可以构建出如下时间线：2014 MM JVTP-UEAQ[1]2015 arXiv GRU[2]2016 CVPR MovieQA[3]2017 CVPR MovieFIB[4]2017 C

2021-01-04 14:59:46 2452

原创联邦学习综述

目录引言横向联邦学习纵向联邦学习联邦学习迁移联邦学习开源框架结论参考文献引言在联邦学习白皮书[1]中给出了明确的联邦学习的定义：各方数据都保留在本地，不泄露隐私也不违反法规；多个参与者联合数据建立虚拟的共有模型，并且共同获益的体系；在联邦学习的体系下，各个参与者的身份和地位平等；联邦学习的建模效果和将整个数据集放在一处建模的效果相同，或相差不大（在各个数据的用户对齐或特征对齐的条件下）；迁移学习是在用户或特征不对齐情况下，也可以在数据间通

2020-12-28 21:19:48 1914

原创基于深度学习的目标检测方法综述

引言现有的深度学习的目标检测方法，可以大致分为两类：一、基于候选区域的目标检测方法；二、基于回归的目标检测方法。依据方法的提出时间，可以构建出如下时间线：2014 CVPR R-CNN[1]2015 arXiv DenseBox[14]2015 ICCV Fast R-CNN[2]2015 NIPS Faster R-CNN[3]2016 CVPR YOLO[5]2016 ACMMM UnitBox[15]2016 ECCV SSD[8

2020-12-14 10:04:39 4169

原创＜文本，场景图＞解析实践

目录简介解析结果分析简介使用链接中的代码进行“文本-场景图”解析。解析结果分析Sentence: the beautiful girls likes dog. （此句子有语法错误是为了后面的解释）entities：一个list，里面包含所有实体目标entities[i][‘head’]：被描述的词（名词），去掉了修饰词，如：‘the girls’ -> ‘girls’entities[i][‘lemma_head’]：在head的基础上，去掉了单复数，如： ‘girls’ -&gt

2020-12-03 12:19:26 582

原创 VALSE Webinar 20-29期图文并茂, 让视觉与语言相得益彰

目录Richer and DeeperUnbiased Scene Graph GenerationPanel报告时间：2020年12月2日 (星期三)晚上20:00 (北京时间)主持人：杨猛 (中山大学)Richer and Deeper报告人：王鹏 (西北工业大学)Richer：下图中，进行VQA时需要模型具有不同的能力（如Reading能力），理解不同的信息，可能不止Visual信息，需要Knowledge信息等。Arxiv：给模型Text GT，准确率可以达到60%，

2020-12-02 22:08:32 440

原创 20201202 《计算感知》武老师第2节课笔记

目录Rob FergusKevin MurphyAntonic TorralbaAndrew ZissermanAlan YuilleOlivier FaugerasMartial HebertDerek HoiemDavid ForsythJean PonceZhengyou ZhangRob FergusDeepMind、New York UniversityVisualizing and understanding convolutional networks, ECCV2014可判读：给

2020-12-02 17:24:55 187 3

原创 20201125 《计算感知》武老师第1节课笔记

目录美国知名学者欧洲知名学者华人知名学者AI的发展得益于做好一个topic一定要读的三篇论文美国知名学者MIT，Marr的两大弟子，Marvin Minsky（图灵奖）、Tomas Poggio。Mikhail Belkin（流形学习、降维）UC Berkeley，Canny（Marvin Minsky弟子）斯坦福，李飞飞UIUC，黄煦涛（华人CV教父，已逝）欧洲知名学者牛津视觉几何组华人知名学者李飞飞，ImageNet商汤，汤晓鸥、王晓刚朱松纯，北大人工智能学院院长何晓飞

2020-11-25 17:28:54 206

原创 ICCV 2019《Zero-Shot Grounding of Objects from Natural Language Queries》论文笔记

目录简介动机贡献方法实验简介本文出自南加大，可以对训练集中没有出现的words（或categories）进行grounding。下载链接动机已有的grounding方法在测试时，只能对训练集中出现过的words（或phrases）进行定位。本文提出一个新的task——zero-shot grounding，致力于对训练集中没有出现的words（或phrases）进行定位。但是，由于detector能够识别的categories受限于训练数据，两阶段的grounding方法不适用于此任务。综上，本文

2020-11-03 21:15:34 696 2

原创 ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记

目录简介动机贡献方法实验简介动机贡献方法实验

2020-11-03 15:12:22 754

原创 ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记

目录简介动机贡献方法实验简介本文出自香港大学的sibei，二作是中山大学李冠斌老师下载链接动机Phrase level visual grounding具有两个challenge：①大量的、可变的视觉内容，多样的短语描述（不同的短语描述可能指向同一个bbox，eg：穿红衣服的男子、拉小提琴的男子。。。）；②短语关系推理中存在明确的引用（顺序？）。现有方法分为两类：①大多数方法不建模短语之间的关系，而关注于特征融合，如下图(a)；②少部分方法考虑了短语之间的关系，但是它们捕获的是部分（或粗糙）的短语

2020-10-28 21:26:34 622

空空如也

空空如也