自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 《Bilateral Knowledge Interaction Network for Referring Image Segmentation》论文笔记

BKINet由知识学习模块(KLM)和知识应用模块(KAM)组成,实现双方的知识交互。具体而言,KLM通过一种由粗到精的策略,通过聚合与目标对象最相关的视觉信息来增强文本特征,该策略将对象的具体知识补充到文本的抽象知识中,从而生成包含参考信息的KI核。然后,KAM应用包含具体和抽象知识的KI核来突出视觉特征。然后,利用突出的视觉特征通过卷积层预测准确的分割掩码。

2024-05-13 14:20:46 604

原创 《Improving Referring Image Segmentation usingVision-Aware Text Features》论文笔记

1.CLIP Prior模块结合图像和文本生成一个以对象为中心的视觉热图。用于初始化DETR-based方法的对象查询。2.使用上下文解码器(交叉注意力模块)对文本特征和视觉特征进行交互。利用Meaning Consistency Constraint获得有意义且一致的特征空间。3.利用masked-attention transformer decoder使用多尺度文本引导的视觉特征增强对象查询。最后增强的对象查询和CMD的视觉特征被用来输出分割掩码。以上是论文中的概述,看完很懵,看具体实现细节。

2024-05-08 15:54:14 598

原创 批量归一化和层归一化

而批量归一化是一个批量中所有样本的同一类特征进行归一化。:层归一化是每个样本的自身特征一起归一化。一直对于归一化的目标有所困惑,今天从。的图片中找到了答案。

2024-04-29 15:50:10 144

原创 《Area-keywords cross-modal alignment for referring image segmentation》“区域-关键字”跨模态对齐框架

下图显示了拟议AKCA的框架。首先,图像编码器和语言编码器分别提取图像和语言特征。然后用跨模态对准模块对两模态之间的关系进行建模。最后,多源驱动的动态卷积将跨模态特征转换为像素级预测。

2024-03-21 20:09:52 578 1

原创 《Referring Image Matting》论文模型CLIPMat

CLIPMat使用大规模预训练的CLIP模型作为文本和视觉主干,使用典型的抠图分支作为解码器。采用直观的上下文嵌入提示,为文本编码器提供与抠图相关的可学习特性。为了提取语义分支的高级视觉语义信息,通过文本输出特征的引导得出视觉语义特征。此外,由于与分割任务相比,RIM(Referring Image Matting)需要更多的视觉细节,因此作者设计了一个通过利用浅层特征和原始输入图像提取多层次细节的模块,旨在抠图分支中保留前景细节。

2024-03-07 16:40:39 1661 1

原创 什么是alpha mattes(阿尔法通道图层)

在数据中,alpha mattes通常以灰度图像的形式表示。每个像素的数值表示该像素的透明度级别,通常在0到255之间,0代表完全透明(完全不可见),255代表完全不透明(完全可见)。因此,alpha mattes在数据中是以灰度值的矩阵形式存在,与原始图像对应,用于描述每个像素的透明度,以便在后续的图像合成、分割或处理过程中准确控制像素的可见性和权重。

2024-03-07 14:03:01 171 1

原创 《CRIS: CLIP-Driven Referring Image Segmentation》论文解读

1.作者提出了一个CLIP驱动的Referrring Image Segmentation(CRIS)来传递CLIP模型的知识,以实现文本到像素的对齐。2.充分利用了多模态知识,设计了视觉语言解码器和文本到像素对比学习两种创新设计。3.在三个具有挑战性的基准数据集(RefCOCO、RefCOCO+、GRef)上的实验结果明显优于以前的最先进的方法。

2024-03-05 19:39:37 469

转载 题目 3159: 蓝桥杯2023年第十四届省赛真题-填充

有一个长度为 n 的 01 串,其中有一些位置标记为?,这些位置上可以任意填充 0 或者 1,请问如何填充这些位置使得这个 01 串中出现互不重叠的 00 和 11 子串最多,输出子串个数。时间限制: 5s 内存限制: 576MB 提交: 1331 解决: 415。如果在问号处填 0 ,则最多出现一个 00 和一个 11:111000。对于所有评测用例,1 ≤ n ≤ 1000000。到底是0是1都无所谓,有?输出一行包含一个整数表示答案。输入一行包含一个字符串。

2024-03-03 15:54:48 230

原创 《PolyFormer: Referring Image Segmentation as Sequential Polygon Generation》论文模型解读

论文作者为RIS(Referring Image Segmentation)和REC(Referring Image Segmentation)引入了一个新的架构,称为PolyFormer。此模型不是直接预测分割掩码,而是一次产生边界框的角点和所预测实列的多边形顶点。是一种seq2seq的模型。

2024-03-03 14:57:05 1401

原创 bpe_simple_vocab_16e6.txt.gz文件结构

文件内存储的通常是一种文本数据集的子词(Byte Pair Encoding, BPE)词汇表,经过压缩(.gz格式)。BPE是自然语言处理中常用的一种词元编码方法,用于将文本序列分割成更小的、有意义的单元,这些单元不是单个字符,而是基于统计学上的频次自动生成的子词。其文件结构如下图所示。

2024-02-22 14:47:06 486 1

原创 关于coco数据集中instances.json文件内容

instance.json文件中常常需要加载的内容。

2024-02-20 17:15:58 195

原创 refcoco数据集中,refs(unc).p文件内容格式

读取到的文件中包含了大量类似上面内容的结构。根据键很容易理解对应存储的数据。

2024-02-20 16:35:07 411

原创 《LAVT: Language-Aware Vision Transformer forReferring Image Segmentation》关于语言指导的图像分割的论文笔记

Referring image segmentation(我翻译成语言指导的图像分割)其目的就是从图像中分割出自然语言表达式所指称的对象。该任务背后的关键挑战之一是利用指称表达式突出图像中的相关位置。在这篇论文中,作者通过在视觉Transformer编码器网络的中间层中早期融合语言和视觉特征,可以实现更好的跨模态对齐。

2024-02-19 15:01:56 424

原创 Referring Image Segmentation Using Text Supervision(论文笔记)

校准:对于分类过程产生的粗响应图,校正响应图的准确性,将目标物体与同一图像中的其他物体进行对比(将其视为背景噪音)。选择最高的响应图作为目标对象的响应图。具体实现是通过积极表达和消极表达生成的响应图,将每个表达的响应图输入公式得到响应分数,利用响应分数和人为干预正负样本值的构造损失函数,从而学习正确的结果。(3)分割网络:图像编码器与文本编码器采用clip的编码器,并将文本编码器最后三层文本特征融合进图像编码器的最后三层中,并且文本特征也融合进解码器中,解码器和编码器是对称的。两个步骤的训练设置是相同的。

2024-02-01 15:29:38 1333 2

原创 Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs(关于大核卷积的论文笔记)

作者提出了一个提出了RepLKNet,一个纯CNN架构,其内核大小为31×31,而不是常用的3×3。此模型再一些经典的下游任务上获得了与Swin Transformer相当或更好的结果,并且延迟低。作者还提到与小核cnn相比,大核cnn具有更大的有效接受野和更高的形状偏差而不是纹理偏差。RepLKNet的高性能主要是因为通过大内核构建的大感受野。

2024-01-28 15:24:21 278 1

转载 蓝桥杯2023年第十四届省赛真题-翻转 (纯模拟)

纯模拟方法解决蓝桥杯2023年第十四届省赛真题-翻转

2024-01-27 17:21:07 328 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除