自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

lch的博客

2557176,657777,6765

  • 博客(309)
  • 收藏
  • 关注

原创 基于相似学习的目标跟踪方法

目录SiameseFC:ECCV2016SINT:CVPR2016CFNet:CVPR2017DSiam:ICCV2017EAST: ICCV2017SA-Siam:CVPR2018SiamRPN:CVPR2018SINT++:CVPR2018RASNet:CVPR2018DaSiamRPN:ECCV2018StructSiam:ECCV2018Siam-tri:ECCV2018&am

2018-11-29 19:08:43 3618 1

原创 视频中的目标检测与跟踪综述

理解出错之处望不吝指正。 这是选题阶段整理出的一个综述形式的PPT,其中有些内容都是在别的地方摘抄的,在最后一页PPT中列出了所有的参考文献。...

2018-09-13 09:15:52 11975 8

原创 常用LaTex指令

目录表格跨行表格图片双栏图片单栏图片多图(左中右)字体加粗斜体公式加粗(向量)花体(只适用于大写字母)引用参考文献引用图片/表格/公式等脚注表格跨行表格\begin{table*}[htbp] \small \centering \setlength{\tabcolsep}{12mm}{ \begin{tabular}{lccc} \hline\noalign{\smallskip} \multicolumn{1}{l}{xxx} & \multicolumn{3}{c}{

2021-11-22 16:18:13 2029

原创 CVPR 2021 《Domain-robust VQA with diverse datasets and methods but no target labels》论文笔记

目录简介动机方法实验简介论文链接动机由于cv中的方法通常会过拟合数据集,所以很多学者尝试让这些方法对“域变化”鲁棒。但是,这些domain adaptation方法并不适用于VQA任务,主要由于三个原因:VQA任务的输入是多模态的;VQA方法由不同的模块构成了多个步骤,导致优化复杂;不同的VQA数据集的answer space是不同的。为了应对上述问题,作者主要做了以下三个方面的工作:量化不同VQA数据集之间的domain shift,并在image和question domain

2021-06-17 20:37:10 637

原创 CVPR 2021 《Causal Attention for Vision-Language Tasks》论文笔记

目录简介动机方法实验简介本文出自张含望老师课题组。论文链接动机文章的第一句就说明了本文的动机,也就是,本文提出了一个新颖的注意力机制,可以消除现有的基于注意力的视觉语言方法中的混杂效应。混杂效应会造成有害的bias,误导注意力模块学到数据中的虚假相关,从而降低模型的泛化性。由于混杂是不可观测的,所以作者使用了前门调整策略实现因果干预。方法现有的方法中通常是建模公式1:作者认为,应该建模P(Y∣do(X))P(Y|do(X))P(Y∣do(X))。但是由于混杂的存在,P(Y∣do(X

2021-05-11 10:36:57 3234

原创 因果推断 - 中介

目录基础知识中介公式版权:转载前请联系作者获得授权。参考书籍:《The Book of Why》——Judea Pearl、论文基础知识对于下面的因果图,MMM是XXX和YYY之间的中介。直接效应:扰动XXX而保持MMM恒定时,对YYY的影响即为直接效应。间接效应:保持XXX恒定,并将MMM增加到XXX增加1个单位的情况下MMM所能达到的量,此时YYY的增量即为XXX对YYY的间接效应。受控直接效应:CDE(0)=P(Y=1∣do(X=1),do(M=0))−P(Y=1∣do(X=0),d

2021-04-19 22:58:02 1269

原创 因果推断 - 反事实

目录基础知识案例实战版权:转载前请联系作者获得授权。声明:部分内容出自因果关系之梯,已获得原作者授权。参考书籍:《The Book of Why》——Judea Pearl基础知识定义:对于包含外生变量UUU和内生变量XXX和YYY的SCM,形如YX=x(U=u)=yY_{X=x}(U=u)=yYX=x​(U=u)=y表示“在U=uU=uU=u的情况下,如果X=xX=xX=x,则Y=yY=yY=y”。其中,YX=x(U=u)=yY_{X=x}(U=u)=yYX=x​(U=u)=y可以简写为Yx(

2021-04-19 19:47:23 6438 2

原创 因果推断 - 干预

目录基础知识干预前门准则、后门准则后门调整逆概率加权前门调整版权:转载前请联系作者获得授权。声明:部分内容出自因果关系之梯,已获得原作者授权。参考书籍:《The Book of Why》——Judea Pearl基础知识干预定义:将因果图中结点XXX的值修改为xxx,记为do(X=x)do(X=x)do(X=x),可以简写为do(x)do(x)do(x)。性质:在对结点X进行干预时,会删除因果图中指向X的边。与“以变量为条件”的区别:表现形式:P(Y=y∣X=x)P(Y=y | X=x

2021-04-19 19:36:09 4842 10

原创 因果推断 - 基础知识

目录因果关系之梯因果图的路径结构阻断d-分离混杂结构因果模型(SCM)因果关系之梯因果关系之梯可以分为三个层次(由低到高):关联 :X和Y是否相关,有没有互相影响。干预:如果改变X,Y会有什么变化?反事实:如果想让Y发生变化,能否通过改变X来实现?因果图的路径结构因果图的路径结构可以分为三种:链式:X -> Z -> Y叉式:X <- Z -> Y对撞:X -> Z <- Y在两种情况下,节点之间具有相关性(不相互独立):有信息从一个节点流

2021-04-19 18:58:57 2259 1

原创 python输出到文件

通过改变sys.stdout使结果输出到文件。import sysimport osdef mkdir_if_missing(dir_path): try: os.makedirs(dir_path) except OSError as e: if e.errno != errno.EEXIST: raiseclass Logger(object): def __init__(self, fpath=None):

2021-04-07 09:22:38 455 1

原创 AAAI 2021 《Regularizing Attention Networks for Anomaly Detection in Visual Question Answering》论文笔记

目录简介动机方法实验简介本文是POSTECH和Kakao合作的一篇文章。论文链接动机异常检测有助于提升模型的稳定性和可靠性,也就是鲁棒性,OOD问题也可以视为一种异常。但是,单模态的异常检测(MSP)并不能轻易的使用到VQA这种多模态任务中。作者提出了一种基于attention的方法(MAP),可以对VQA中的五种异常进行检测。方法首先,作者将VQA任务中的异常情况分为五种,也就是五个TASK。TASK1~TASK3这三个TASK很好理解,就是在输入的视觉信息VVV和语言信息QQQ中,

2021-03-18 15:21:53 454

原创 EMNLP 2020 《MUTANT: A Training Paradigm for Out-of-Distribution Generalization in VQA》论文笔记

目录简介动机方法实验简介论文链接动机VQA中的语言先验问题,也可以说是OOD问题(Out-Of-Distribution)。使用额外的单独分支减轻模型学得语言先验的一类方法试图消除所有的Q-A bias,作者认为这是适得其反的。而本文的出发点是让模型关注正向bias,消除负面bias。正向bias如:对于“what is the color of xxx”问题,模型应回答“颜色”类答案,负面bias如:“香蕉是黄色的”这种语言先验。方法在我个人看来,本文方法可视为一种数据增强。对于数据集中的一个

2021-03-17 22:47:47 554 1

原创 arXiv 2021《Transformer in Transformer》论文笔记

目录简介动机方法实验简介本文出自华为诺亚方舟,作者是韩凯。文章链接动机本文动机是,在ViT基础上,编码patch内的pixel之间的结构信息。方法使用两个transformer,外transformer负责编码大小为16×1616 \times 1616×16的patch之间的关系,内transformer负责编码大小为4×44 \times 44×4的super-pixel之间的关系。实验本文方法的实验结果也很好。...

2021-03-08 23:00:26 3090

原创 2021.02.23 Visual QA论文阅读

目录[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering文章链接文章链接[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering文章链接本文的动机很明确,就是组合泛化。什么是组合泛化

2021-02-23 17:01:29 514 1

原创 Transformer、BERT学习笔记

目录TransformerBERT题目TransformerBERT题目Pre-training of Deep Bidirectional Transformers for Language Understanding下载链接

2021-02-20 20:01:20 386

原创 2021.02.18 Visual QA论文阅读

目录[2017][CVPR] Graph-Structured Representations for Visual Question Answering[2019][ICCV] Language-Conditioned Graph Networks for Relational Reasoning[2019][ICCV] Relation-Aware Graph Attention Network for Visual Question Answering[2020][CVPR] Multi-Modal

2021-02-18 20:39:53 667 3

原创 2021.02.05 Visual QA论文阅读

目录[2016][ECCV] Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering[2016][ECCV] Learning Models for Actions and Person-Object Interactions with Transfer to Question Answering[2016][ECCV] Ask, Attend and Answer:

2021-02-05 18:12:29 242

原创 2021.02.04 Visual QA论文阅读

目录[2016][CVPR] Where To Look: Focus Regions for Visual Question Answering[2016][CVPR] Yin and Yang: Balancing and Answering Binary Visual Questions[2016][CVPR] Where To Look: Focus Regions for Visual Question Answering文章链接本文的motivation很明确——knowing where

2021-02-04 23:05:16 312

原创 2021.02.03 Visual QA论文阅读

目录[2016][CVPR] Stacked Attention Networks for Image Question Answering[2016][CVPR] Visual7W: Grounded Question Answering in Images[2016][CVPR] Stacked Attention Networks for Image Question Answering文章链接本文出自CMU+微软研究院(何晓冬),应该是第一篇提出VQA需要多步推理的文章。本文的动机来自于:在V

2021-02-03 18:02:35 347

原创 2021.02.02 Visual QA论文阅读

目录[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction[2016][CVPR] Neural Module Networks[2016][CVPR] Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction文章链接

2021-02-02 23:30:40 233 1

原创 2021.02.01 Visual QA论文阅读

目录[2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Image Question Answering[2015][NIPS] Exploring Models and Data for Image Question Answering[2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Imag

2021-02-01 21:52:52 407 1

原创 2021.01.30 Visual QA论文阅读

目录[2015][ICCV] Ask Your Neurons A Neural-Based Approach to Answering Questions About Images[2015][ICCV] Visual Madlibs: Fill in the blank Description Generation and Question Answering[2015][ICCV] VQA: Visual Question Answering[2015][ICCV] Ask Your Neurons

2021-01-30 18:49:04 376 1

原创 2021.01.29 Visual QA论文阅读

目录[2014][NIPS] A Multi-World Approach to Question Answering about Real-World Scenes based on Uncertain Input[2015][CVPR] VisKE: Visual Knowledge Extraction and Question Answering by Visual Verification of Relation Phrases[2014][NIPS] A Multi-World Approac

2021-01-29 17:36:05 376 2

原创 ECCV 2020《TRRNet: Tiered Relation Reasoning for Compositional Visual Question Answering》论文笔记

目录简介动机贡献方法实验简介文章链接动机现有的VQA方法可以分为两类,第一类侧重于对视觉和语言的跨模态联合建模,但是由于缺乏关系推理能力,在组合推理任务上的表现较差。第二类主要侧重于神经模块的设计,但是这类方法需要手工设计,在real-world数据集上难以适用(具有过多的目标类别和可能的推理action)。贡献方法实验...

2021-01-07 16:34:18 512 1

原创 Video Question Answering综述

目录引言选择型视频问答开放型视频问答选择型、开放型均可的视频问答结论参考文献引言       视频问答是视觉语言领域较为新兴的一个课题,需要根据视频内容和问题进行分析,得出问题的答案。根据回答形式,可分为:一、选择型视频问答;二、开放型视频问答。根据方法的提出时间,可以构建出如下时间线:2014 MM JVTP-UEAQ[1]2015 arXiv GRU[2]2016 CVPR MovieQA[3]2017 CVPR MovieFIB[4]2017 C

2021-01-04 14:59:46 2452

原创 联邦学习综述

目录引言横向联邦学习纵向联邦学习联邦学习迁移联邦学习开源框架结论参考文献引言       在联邦学习白皮书[1]中给出了明确的联邦学习的定义:各方数据都保留在本地,不泄露隐私也不违反法规;多个参与者联合数据建立虚拟的共有模型,并且共同获益的体系;在联邦学习的体系下,各个参与者的身份和地位平等;联邦学习的建模效果和将整个数据集放在一处建模的效果相同,或相差不大(在各个数据的用户对齐或特征对齐的条件下);迁移学习是在用户或特征不对齐情况下,也可以在数据间通

2020-12-28 21:19:48 1914

原创 基于深度学习的目标检测方法综述

引言       现有的深度学习的目标检测方法,可以大致分为两类:一、基于候选区域的目标检测方法;二、基于回归的目标检测方法。依据方法的提出时间,可以构建出如下时间线:2014 CVPR R-CNN[1]2015 arXiv DenseBox[14]2015 ICCV Fast R-CNN[2]2015 NIPS Faster R-CNN[3]2016 CVPR YOLO[5]2016 ACMMM UnitBox[15]2016 ECCV SSD[8

2020-12-14 10:04:39 4169

原创 <文本,场景图>解析实践

目录简介解析结果分析简介使用链接中的代码进行“文本-场景图”解析。解析结果分析Sentence: the beautiful girls likes dog. (此句子有语法错误是为了后面的解释)entities:一个list,里面包含所有实体目标entities[i][‘head’]:被描述的词(名词),去掉了修饰词,如:‘the girls’ -> ‘girls’entities[i][‘lemma_head’]:在head的基础上,去掉了单复数,如 : ‘girls’ -&gt

2020-12-03 12:19:26 582

原创 VALSE Webinar 20-29期 图文并茂, 让视觉与语言相得益彰

目录Richer and DeeperUnbiased Scene Graph GenerationPanel报告时间:2020年12月2日 (星期三)晚上20:00 (北京时间)主持人:杨猛 (中山大学)Richer and Deeper报告人:王鹏 (西北工业大学)Richer:下图中,进行VQA时需要模型具有不同的能力(如Reading能力),理解不同的信息,可能不止Visual信息,需要Knowledge信息等。Arxiv:给模型Text GT,准确率可以达到60%,

2020-12-02 22:08:32 440

原创 20201202 《计算感知》武老师 第2节课 笔记

目录Rob FergusKevin MurphyAntonic TorralbaAndrew ZissermanAlan YuilleOlivier FaugerasMartial HebertDerek HoiemDavid ForsythJean PonceZhengyou ZhangRob FergusDeepMind、New York UniversityVisualizing and understanding convolutional networks, ECCV2014可判读:给

2020-12-02 17:24:55 187 3

原创 20201125 《计算感知》武老师 第1节课 笔记

目录美国知名学者欧洲知名学者华人知名学者AI的发展得益于做好一个topic一定要读的三篇论文美国知名学者MIT,Marr的两大弟子,Marvin Minsky(图灵奖)、Tomas Poggio。Mikhail Belkin(流形学习、降维)UC Berkeley,Canny(Marvin Minsky弟子)斯坦福,李飞飞UIUC,黄煦涛(华人CV教父,已逝)欧洲知名学者牛津视觉几何组华人知名学者李飞飞,ImageNet商汤,汤晓鸥、王晓刚朱松纯,北大人工智能学院院长何晓飞

2020-11-25 17:28:54 206

原创 ICCV 2019《Zero-Shot Grounding of Objects from Natural Language Queries》论文笔记

目录简介动机贡献方法实验简介本文出自南加大,可以对训练集中没有出现的words(或categories)进行grounding。下载链接动机已有的grounding方法在测试时,只能对训练集中出现过的words(或phrases)进行定位。本文提出一个新的task——zero-shot grounding,致力于对训练集中没有出现的words(或phrases)进行定位。但是,由于detector能够识别的categories受限于训练数据,两阶段的grounding方法不适用于此任务。综上,本文

2020-11-03 21:15:34 696 2

原创 ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记

目录简介动机贡献方法实验简介动机贡献方法实验

2020-11-03 15:12:22 754

原创 ECCV 2020 《Propagating Over Phrase Relations for One-Stage Visual Grounding》论文笔记

目录简介动机贡献方法实验简介本文出自香港大学的sibei,二作是中山大学李冠斌老师下载链接动机Phrase level visual grounding具有两个challenge:①大量的、可变的视觉内容,多样的短语描述(不同的短语描述可能指向同一个bbox,eg:穿红衣服的男子、拉小提琴的男子。。。);②短语关系推理中存在明确的引用(顺序?)。现有方法分为两类:①大多数方法不建模短语之间的关系,而关注于特征融合,如下图(a);②少部分方法考虑了短语之间的关系,但是它们捕获的是部分(或粗糙)的短语

2020-10-28 21:26:34 622

原创 20201028 《计算感知》第4节课 笔记

文章目录Human Activity Analysispeople understanding的四个level应用ChallengesHuman Activity Analysispeople understanding的四个levelobject level:定位tracking level:轨迹、相关性pose level:human body partsactivity level:识别行为和事件,此level存在四个子level:gesture、actions、interactions

2020-10-28 18:51:17 179

原创 20201021 《计算感知》第3节课 笔记

文章目录边缘检测(Edge Detection)边缘检测一阶微分算子二阶微分算子立体视觉(Stereo Vision)计算机视觉最难的两个问题视差、外极面、外极线、外极点边缘检测(Edge Detection)边缘检测内涵、外延边缘:图像局部强度变化最显著的部分图像强度不连续可分为:阶跃不连续、线条不连续边缘检测四步骤:滤波、增强、检测、定位一阶微分算子Roberts算子Sobel算子二阶微分算子二阶导数的零交叉点即为边缘点拉普拉斯(Laplacian)算子:有噪声,难以

2020-10-28 14:50:48 184

原创 supervisor使用指南

目录安装和配置常用命令介绍关闭supervisor安装和配置直接使用pip安装即可sudo pip install supervisor安装完成后,选择一个常用目录(用于存放supervisor配置信息和输出日志),此目录在下文中用<sv_path>表示,执行:# 在该目录下生成配置文件'my.conf'cd <sv_path>echo_supervisord_conf > ./my.conf在<sv_path>下创建两个文件夹,分别为super

2020-10-19 16:57:15 290 1

原创 20201014 《计算感知》第2节课 笔记

目录导论David Marr的视觉计算理论信息处理的三个层次视觉表示框架一些书籍(Marr吹)计算机视觉研究的五大研究分支计算机视觉的应用视觉的特性计算视觉导论认知 谋划 行动,三个层次,认知能力欠缺思考 阅读 交流 实现,四个步骤,缺少交流David Marr的视觉计算理论1945-1980,英年早逝论文推荐 Cooperative computation ofstereo disparity, Science论文推荐 Theory of Edge Detectionthis book

2020-10-14 17:35:01 260

原创 20201014 《人工智能与大数据》第1节课 笔记

目录课程相关推荐书籍在n个数中查找出现次数超过一半的数字在n个数中寻找出现次数最多的k个数字估计n个数中出现次数最多的k个数字的出现次数布隆过滤器课程相关李荣华 [email protected]主页 ronghuali.github.io课程考核 大作业(综述)推荐书籍王宏志,大数据算法,机械工业出版社,2015Jure Leskovec, Anand Rajaraman, Mining of Massive Datasets edition中文版:大数据-互联网大规模数据挖掘与分

2020-10-14 15:01:56 426

原创 ICCV 2019 运行LCGN遇到的问题及解决办法

目录文章简介Issues现需要在CLEVR-Ref+数据集上测试LCGN模型,遇到了一些问题, 记录一下。文章简介Language-Conditioned Graph Networks for Relational Reasoning文章链接pytorch代码链接tensorflow代码链接IssuesImportError: cannot import name ‘imread’ from ‘scipy.misc’这是由于scipy的版本过高导致,卸载scipy,安装1.2.1版本即可

2020-10-13 17:03:22 628

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除