![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
阅读笔记
文章平均质量分 76
lynn_Dai
这个作者很懒,什么都没留下…
展开
-
【阅读笔记】Diffusion模型系列文章
这种方法的一个优势是只需要训练一个通用的自编码模型,就可以用于不同的扩散模型的训练,在不同的任务上使用。在图到图生成任务下,扩散器采用图片的数据层和图片的上下文。这里的t做一个时间编码喂入网络中,因为在后向过程中,每一次迭代的网络都是相同的,即参数共享,那怎么让网络知道现在迭代到哪一步呢,那么我们就将t一同传进去参与训练,用t来告诉网络进行到第几次迭代了。在加噪声的过程中,扩散率逐渐增大,对应着在去噪声的过程中,扩散率逐渐减小,也就是说,去噪的过程是先把"明显"的噪声给去除,对应着较大的扩散率;原创 2023-04-13 19:54:27 · 1256 阅读 · 0 评论 -
【arxiv】data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language
核心思想是在使用标准Transformer体系结构的自蒸馏设置中,基于输入的屏蔽视图预测完整输入数据的潜在表示。data2vec不是预测特定于模式的目标,如单词、视觉标记或人类语音的局部单位,而是预测包含来自整个输入的信息的上下文化潜在表示。在语音识别、图像分类和自然语言理解的主要基准上的实验展示了一种新的艺术状态或主要方法的竞争性能。原创 2023-03-29 18:21:13 · 236 阅读 · 0 评论 -
【iclr2023】DESIGNING BERT FOR CONVOLUTIONAL NETWORKS: SPARSE AND HIERARCHICAL MASKED MODELING
我们发现并攻克了将BERT-style预训练或者图像mask建模应用到CNN中的两个关键障碍:1) CNN不能处理不规则的、随机的掩码输入图像;2)BERT预训练的单尺度性质与convnet的层次结构不一致对于第一点,我们将没有被mask掉的像素点视作为3d点云(点云是一种方便的3D表达方式)的稀疏体素;使用sparse CNN进行编码,这是sparse CNN首次引入2d-mask建模;对于第二点,我们开发了一个hierarchical decoder来连接不同尺度的编码特征重建图像。原创 2023-03-29 16:55:22 · 611 阅读 · 0 评论 -
【cvpr2020】Referring Image Segmentation via Cross-Modal Progressive Comprehension
之前的方法缺乏利用语言中不同类型的信息词来准确对齐视觉和语言特征的能力。提出采用渐进式方法,分为两个阶段,第一步,模型根据实体词和属性词来感知表达式中描述的所有实体,第二步,模型进一步推理实体之间的关系,以突出所指对象并抑制其他不匹配的实体。(1)提出了一个跨模态渐进理解(CMPC)模块,首先感知表达式所有实体,然后利用输入表达式的关系词突出所指对象,抑制其他不相关的,为所指对象产生有区别的特征表示。(2)提出了一个文本引导特征交换(TGFE)模块,在语言特征的引导下进行多层次特征之间的自适应信息交流,原创 2022-06-22 15:26:12 · 1327 阅读 · 0 评论 -
【arxiv2022】LAVT: Language-Aware Vision Transformer for Referring Image Segmentation
在传统的范式中,Transformer在提高RIS方面的潜力还远远没有得到充分的探索。具体来说,跨模态交互只发生在特征编码之后。而跨模态解码器只负责对齐视觉和语言特征。以前的方法不能有效地利用编码器中的Transformer层来挖掘有用的多模态上下文。为了解决这些问题,提出利用视觉编码器网络在视觉编码期间联合嵌入语言和视觉特征。提出了一种语言感知视觉转换器(LAVT)网络,在该网络中,视觉特征与语言特征一起编码,能够“感知”每个空间位置的相关语言上下文。LAVT充分利用了vision Transform原创 2022-06-22 15:24:02 · 419 阅读 · 0 评论 -
【arxiv2022】MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image Segmentation
现有的方法,存在以下不足提出了一种用于图像、语言和掩码联合学习的统一三模态mask - image - language框架MaIL。原创 2022-06-22 15:16:54 · 339 阅读 · 0 评论 -
【cvpr2021】Locate then Segment: A Strong Pipeline for Referring Image Segmentation
以前的方法网络架构和实验实践越来越复杂,使得算法分析和比较变得越来越困难。此外,他们没有明确定位语言表达引导的参考对象,只利用耗时的后处理 DCRF 来生成最终的细化分割。提出一种新的方法,将RIS解耦为两个子序列任务:(a)引用对象位置预测,(b)对象分割掩码生成。模型首先融合视觉和语言特征以获得跨模态特征。对于(a),提出了一个定位模块来直接获得与表达对应的视觉内容。这样的对象先验将用作后续分割模块的视觉位置指导。对于 (b),将对象先验与跨模态特征连接起来,并利用轻量级 ConvNets 来获得最终的原创 2022-06-22 15:15:46 · 333 阅读 · 1 评论 -
【iccv2021】Vision-Language Transformer and Query Generation for Referring Segmentation
模型在不同层次上构建了语言和视觉特征之间的深度交互,极大地增强了多模态特征的融合和利用。此外,所提出的模块是轻量级的,其参数大小大致相当于七个卷积层。原创 2022-06-22 15:14:26 · 1072 阅读 · 0 评论 -
【cvpr2022】ReSTR: Convolution-free Referring Image Segmentation Using Transformers
1、以前的方法在处理每种模态中语义实体之间的长期交互方面存在困难。RIS需要捕捉这种交互,因为语言表达通常涉及到复杂的实体之间的关系,以精确地指出目标区域。在这方面,cnn和rnn由于其基本构建模块的局部性而受到限制。2、现有模型难以对两种模态之间复杂的相互作用进行建模。它们通过拼接-卷积运算聚合视觉和语言特征,它无法足够灵活有效地处理大量的各种RIS场景。1、ReSTR通过transformer提取视觉和语言特征。视觉编码器和语言编码器分别以一组不重叠的图像块和一组文字嵌入块作为输入,提取它们的特征,同原创 2022-06-22 15:11:11 · 653 阅读 · 0 评论 -
【cvpr2022】CRIS: CLIP-Driven Referring Image Segmentation
文章地址:CRISGithub:https://github.com/DerrickWang005/CRIS.pytorch1、现有的方法利用外部知识促进学习,主要采用单模态的预训练(如预训练的图像或文本编码器),缺乏多模态的对应信息。CLIP展示了从4亿对图像-文本对学习SOTA图像级视觉概念的能力,这有助于多模态任务。2、由于图像级预测与像素级预测的差异,直接使用CLIP对于像素级预测任务可能不是最优的。前者关注输入图像的全局信息,而后者需要学习每个空间激活的细粒度视觉表示。利用 CLIP 模型的强原创 2022-06-22 14:54:55 · 3035 阅读 · 0 评论 -
Visually-Rich Document understanding—— 阅读笔记
paperlist:1、2021《LayoutLM: Pre-training of Text and Layout for Document Image Understanding》微软2、2021《LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding》微软3、2021《ViBERTgrid: A Jointly Trained Multi-Modal 2D Document Representat原创 2021-11-12 11:09:14 · 2197 阅读 · 0 评论 -
事件共指消解系列文章——论文笔记
事件共指消解 KBP数据集19.09《基于多注意力机制的事件同指消解方法》任务描述:用于判断文档的多个事件实例是否指向同一个事件,并将相互同指的事件进行聚类,形成一个事件链。比如:S 1: A Cuban patrol boat with four heavily armed men landed on American shores.S2:These bozos let four armed Cubans land on our shores.触发词landed和land都指向同一个事件移动(原创 2021-06-28 16:57:02 · 2178 阅读 · 0 评论 -
知识图谱对齐——论文阅读笔记
《Cross-lingual Knowledge Graph Alignment via Graph Matching Neural Network》基于图匹配神经网络的跨语言知识图谱对齐摘要先前的跨语言的知识图谱对齐研究依赖于实体嵌入的思想,,其不能够在两个知识图谱上;此文介绍一种方法,表示其上下文信息的特征实体,主体实体图(局部实体子图),从这个角度来看,知识库的对齐工作可以看做图匹配问题,进一步提出注意力机制的解决方案。代码: https://github.com/syxu828/Crossl原创 2021-06-17 15:15:31 · 678 阅读 · 0 评论 -
学习笔记——动态规划专题
动态规划的题目特点1、 计数型有多少种方式走到右下脚有多少种方法选出k个数的和是sum2、求最大值最小值型从左上角走到右下角路径的最大数字和最长上升子序列长度3、 求存在性型取石子游戏,先手是否必胜能不能选出k个数使得和为sum动态规划的总结1、确定状态研究最优策略的最后一步化为子问题2、转移方程根据子问题定义直接得到3、初始条件和边界条件细心、考虑周全4、计算顺序利用之前的计算结果例题解析及其代码例题一:求最大值最小值型题目:你有三种硬币,分别面值原创 2020-07-13 15:14:46 · 433 阅读 · 0 评论 -
篇章级的事件抽取——阅读笔记
一、《DCFEE》《DCFEE: A Document-level Chinese Financial Event Extraction System based on Automatically Labeled Training Data》DCFEE:基于自动标注训练数据的文档级中文金融事件抽取系统Abstract针对事件抽取(Event Extraction)目前面临着训练数据缺乏和文档级别事件抽取两大问题,文章开创性的提出相应的解决方案。第一,训练数据缺乏。ACE 2005 中,各语言的文档数原创 2021-04-18 20:55:25 · 4920 阅读 · 0 评论 -
实体对齐——阅读笔记
实体对齐实体对齐简介:不同的只是图谱对同一个实体的描述,会有差异。通过知识融合可以将不同知识图谱中的只是进行互补融合。实体对齐的目的:判断两个或者多个不同信息来源的实体是否为指向真实世界中同一个对象,将具有相同指称的命名实体聚集在一起。一、《A Survey on Entity Alignment of Knowledge Base》2016Abstract首先形式化定义了知识库实体对齐问题,然后对知识库的实体对齐工作进行总体概述,并从对齐算法、特征匹配技术和分区索引技术三个方面详细总结了各种可原创 2021-04-18 20:56:40 · 10344 阅读 · 1 评论 -
从预训练语言模型中无监督构建知识图谱——阅读笔记
这篇论文有以下三点贡献:1、展示了如何从预训练语言模型中构建知识图谱。2、提出了一种无监督的两阶段方法:MAMA。3、构建了一类全新的知识图谱——开放知识图谱1. 背景介绍简单介绍一下知识图谱:现有大型知识图谱,诸如Wikidata、Yago、DBpedia,富含海量世界知识,并以结构化形式存储。如下图所示,每个节点代表现实世界中的某个实体,它们的连边上标记实体间的关系。这样,美国作家马克·吐温的相关知识就以结构化的形式记录下来。长期以来,知识图谱的构建通常基于手工标注,耗时耗力(例如Fre原创 2021-04-18 20:57:21 · 902 阅读 · 0 评论