- 博客(43)
- 收藏
- 关注
原创 ICCV2023:Weakly Supervised Referring Image Segmentation with Intra-Chunk and Inter-Chunk Consistency
参考图像分割的目的是通过自然语言表达来定位图像中的对象。以往的研究大多是利用包含分割标签的大规模数据集来学习参考图像分割,但成本较高。我们提出了一种弱监督学习方法用于参考图像分割,该方法仅使用现成的图像-文本对。我们首先训练一个图像-文本匹配的视觉语言学模型,并通过Grad-CAM提取视觉显著性图来识别每个单词对应的图像区域。然而,我们发现了Grad-CAM的两个主要问题。
2024-05-09 10:54:21 763
原创 TransVG++:End-to-End Visual Grounding with Language Conditioned Vision Transformer
凭经验判断,Transformer的stack越多效果越好。然而,TransVG中的核心融合变压器是独立于单模态编码器的,因此应该在有限的视觉接地数据上从头开始训练,这使得难以优化并导致次优性能。为此,我们进一步引入TransVG++来进行两方面的改进。首先,我们通过利用视觉转换器(Vision Transformer, ViT)进行视觉特征编码,将我们的框架升级为 纯粹基于Transformer的框架。另一方面,我们设计了语言条件视觉转换器,
2024-04-30 17:10:45 221
原创 RefCLIP 和 ReCLIP(for REC)
这篇论文介绍了ReCLIP,这是一个用于指代表达理解(Referring Expression Comprehension,简称ReC)任务的强零样本基线方法。ReCLIP的核心思想是利用CLIP(一种先进的大规模预训练模型),通过零样本学习(zero-shot learning)的方式,来解决ReC任务,而不需要针对特定视觉领域的额外训练数据。
2024-03-26 11:13:37 1170
原创 解决:让Chatgpt在聊天界面直接显示公式,而不是那种$C_a$代码!!!
解决:让Chatgpt在聊天界面直接显示公式,而不是那种$C_a$代码!!!
2024-03-13 16:11:59 5335 1
原创 ICCV2023:FLatten Transformer: Vision Transformer using Focused Linear Attention
self-attention 的二次计算复杂度一直是将Transform模型应用于视觉任务时面临的一个持续挑战。另一方面,线性注意力通过精心设计的映射函数逼近Softmax操作,以其线性复杂性提供了一种更有效的替代方案。然而,当前的线性注意力方法要么遭受显着的性能下降,要么引入了映射函数的额外计算开销。在本文中,我们提出了一种新颖的聚焦线性注意力模块,以实现高效率和表现力。具体而言,我们首先从两个视角分析了导致线性注意力性能下降的因素:聚焦能力和特征多样性。为了克服这些限制,我们引入了一个简单而有效的映射函
2024-03-01 15:48:33 1427
原创 ICCV2023:A Dynamic Dual-Processing Object Detection Framework Inspired by the Brain‘s Recognition Me
目标检测的两种方法:CNN-based 和 Transformer-based, 前者将该任务视为 a dense local matching problem, and the latter sees it as s sparse global retrieval problem.Research in neuroscience has shown that the recognition decision in the brain is based on two processes, namely f
2024-03-01 11:17:08 830
原创 Docker使用
请确保你有足够的权限来运行这些命令,通常需要具有 sudo 或 docker 组的权限。替换 为你要查看的容器的实际 ID,这会显示有关容器的详细信息。这会列出当前系统中所有的 Docker 镜像,包括镜像的 ID、仓库名、标签、大小等信息。这会显示当前正在运行的 Docker 容器的列表,包括容器的 ID、名称、状态等信息。这会显示所有的 Docker 容器,包括正在运行的和已经停止的。这会实时显示正在运行的容器的资源使用情况,包括 CPU、内存等。
2024-01-26 00:26:23 511 1
原创 CVPR2023|Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in Ecommerce
本文旨在建立一个通用的多模态基础模型,该模型具有可扩展的电子商务中大规模下游应用的能力。近年来,大规模视觉语言预训练方法在通用领域取得了显著进展。然而,由于自然图像和产品图像之间的显着差异,将这些框架直接应用于电子商务的图像级表示建模将不可避免地次优。为此,我们在这项工作中提出了一种以实例为中心的多模态预训练范式,称为ECLIP。具体来说,我们设计了一个解码器架构,该架构引入了一组可学习的实例查询,以显式聚合实例级语义。
2024-01-25 13:49:36 791
原创 音乐数据集+大模型相关(一)
下图来自 llark论文。对于音频领域,Mubert和Riffusion是近期热门的两个文本到音乐的生成模型。Mubert是一个文本到音乐的演示界面,能够根据输入的文本生成高质量的音频音乐。不过由于所有的声音都是由音乐家和声音设计师事先创造的,因此Mubert更像是在生成声音的组合,而不是音乐。Riffusion使用与Stable Diffusion相同的模型,从文本中生成频谱图,然后将其转换为音频片段。
2024-01-24 16:10:49 2205 1
原创 CVPR 2023|FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation
最近出现了开放词汇学习来完成任意类别的基于文本的描述的分割,这将分割系统推广到更通用的应用场景。然而,现有的方法致力于为特定的分割任务设计专门的架构或参数。这些定制的设计范式导致各种分割任务之间的碎片化,从而阻碍了分割模型的统一性。因此,在本文中,我们提出了FreeSeg,这是一个通用框架来完成统一、通用和开放词汇的图像分割。FreeSeg通过一次性训练优化了一个一体化网络,并采用相同的架构和参数在推理过程中无缝处理不同的分割任务。
2024-01-23 20:07:35 1002
原创 CVPR 2023 Universal Instance Perception as Object Discovery and Retrieval
所有的实例感知任务都旨在寻找由类别名称、语言表达式和目标注释等查询指定的某些对象,但是这个完整的字段被分成了多个独立的子任务。在这项工作中,我们提出了下一代的通用实例感知模型,称为UNINEXT。UNINEXT将不同的实例感知任务重新制定为统一的对象发现和检索范式,并且可以通过简单地改变输入提示来灵活地感知不同类型的对象。这种统一的公式带来了以下好处:(1)来自不同任务和标签词汇表的大量数据可以被利用来联合训练通用实例级表示,这对于缺乏训练数据的任务特别有益。
2024-01-23 17:04:27 1077
原创 conda使用,pip使用
这个时候,两个numpy可能就打架了。pip install xxx:分两种情况,一种情况就是当前conda环境的python是conda安装的,和系统的不一样,那么xxx会被安装到anaconda3/envs/current_env/lib/python3.x/site-packages文件夹中,如果当前conda环境用的是系统的python,那么xxx会通常会被安装到~/.local/lib/python3.x/site-packages文件夹中。商业转载请联系作者获得授权,非商业转载请注明出处。
2024-01-22 17:00:25 589
原创 ICLR2023: What do vision transformers learn? A visual exploration
视觉转换器 (ViT) 正迅速成为计算机视觉事实上的架构,但我们对它们的工作原理和学习内容知之甚少。虽然现有的研究直观地分析了卷积神经网络的机制,但对ViT的类似探索仍然具有挑战性。在本文中,我们首先解决了在ViT上执行可视化的障碍。在这些解决方案的帮助下,我们观察到使用语言模型监督(例如,CLIP)训练的ViT中的神经元是由语义概念而不是视觉特征激活的。我们还探索了ViT和CNN之间的潜在差异,我们发现transformer检测图像背景特征,就像它们的卷积对应物一样,但它们的预测对高频信息的依赖要小得多。
2023-12-28 12:39:01 1000
原创 One Wide Feedforward is All You Need -- working
transformer网络结构下,为减少参数量和计算量,如何优化FFN呢?
2023-10-31 15:14:14 132
原创 Error: import nltk import-im6.q16: unable to open X server `‘ @ error/import.c...
要 先进入python,后导入;
2023-07-09 09:30:17 687
原创 数据结构的一些算法
**内容**1.BM算法2.栈的使用3.利用哈弗曼树实现文件压缩4.约瑟夫问题5.链表的相关操作6.栈、队列的相关操作7.树的相关操作
2022-02-07 11:06:46 423
原创 30天自制操作系统笔记
注意:第八天之后才开始动手写程序,要将之前的运算过程添加到后面开发操作系统,步骤:1 在Windows或其他系统上编写源代码2 用C语言编译器编译源代码,生成机器语言文库3 对机器语言文件进行加工,生成软盘映像文件4 对映像文件写入磁盘,做成含操作系统的启动盘启动区 软盘的第一个扇区(扇区为512个字节)叫做启动区。计算机从最初一个扇区开始读软盘,最后去检查这个扇区最后两个字节的内容,如果不是55AA,就会认为这张盘上没有所需的启动程序。IPL 启动程序加载器16位寄存器ax accum
2021-12-31 21:57:03 623
原创 C语言总结
C语言常见总结1.通过调用指针,交换数值2.带头结点和不带头结点链表的区别一、两者区别:1、不带头结点的单链表对于第一个节点的操作与其他节点不一样,需要特殊处理,这增加了程序的复杂性和出现bug的机会,因此,通常在单链表的开始结点之前附设一个头结点。2、带头结点的单链表,初始时一定返回的是指向头结点的地址,所以一定要用二维指针,否则将导致内存访问失败或异常。3、带头结点与不带头结点初始化、插入、删除、输出操作都不一样,在遍历输出链表数据时,带头结点的判断条件是while(head->n
2021-04-23 19:32:36 450
原创 C++模块总结
实现运算符重载运算符重载是对已有运算符赋予多重含义操作符重载的两种形式要注意的是:进行指针相等操作时,可能发生内存泄露;因为指针a=b,给a赋予b的值,相当于将a所指向地址改成b所指向地址,而a原来所指向地址发生丢失。...
2021-04-16 16:03:41 960
原创 C++常见问题总结
C++问题总结模块编程之路总是路漫漫其修远兮,吾将上下而求索。1.no matching function for call to借用CSDN某位的文章,成功修改错误大概截图如下源代码:
2021-04-16 15:52:59 1216
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人