自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 收藏
  • 关注

原创 如何使用torch.DataParallel

【代码】如何使用torch.DataParallel。

2024-07-25 15:00:44 81

原创 ICCV2023:Weakly Supervised Referring Image Segmentation with Intra-Chunk and Inter-Chunk Consistency

参考图像分割的目的是通过自然语言表达来定位图像中的对象。以往的研究大多是利用包含分割标签的大规模数据集来学习参考图像分割,但成本较高。我们提出了一种弱监督学习方法用于参考图像分割,该方法仅使用现成的图像-文本对。我们首先训练一个图像-文本匹配的视觉语言学模型,并通过Grad-CAM提取视觉显著性图来识别每个单词对应的图像区域。然而,我们发现了Grad-CAM的两个主要问题。

2024-05-09 10:54:21 763

原创 TransVG++:End-to-End Visual Grounding with Language Conditioned Vision Transformer

凭经验判断,Transformer的stack越多效果越好。然而,TransVG中的核心融合变压器是独立于单模态编码器的,因此应该在有限的视觉接地数据上从头开始训练,这使得难以优化并导致次优性能。为此,我们进一步引入TransVG++来进行两方面的改进。首先,我们通过利用视觉转换器(Vision Transformer, ViT)进行视觉特征编码,将我们的框架升级为 纯粹基于Transformer的框架。另一方面,我们设计了语言条件视觉转换器,

2024-04-30 17:10:45 221

原创 RefCLIP 和 ReCLIP(for REC)

这篇论文介绍了ReCLIP,这是一个用于指代表达理解(Referring Expression Comprehension,简称ReC)任务的强零样本基线方法。ReCLIP的核心思想是利用CLIP(一种先进的大规模预训练模型),通过零样本学习(zero-shot learning)的方式,来解决ReC任务,而不需要针对特定视觉领域的额外训练数据。

2024-03-26 11:13:37 1170

原创 解决:让Chatgpt在聊天界面直接显示公式,而不是那种$C_a$代码!!!

解决:让Chatgpt在聊天界面直接显示公式,而不是那种$C_a$代码!!!

2024-03-13 16:11:59 5335 1

原创 服务器上的cuda使用

cuda使用

2024-03-08 15:53:28 285

原创 ICCV2023:FLatten Transformer: Vision Transformer using Focused Linear Attention

self-attention 的二次计算复杂度一直是将Transform模型应用于视觉任务时面临的一个持续挑战。另一方面,线性注意力通过精心设计的映射函数逼近Softmax操作,以其线性复杂性提供了一种更有效的替代方案。然而,当前的线性注意力方法要么遭受显着的性能下降,要么引入了映射函数的额外计算开销。在本文中,我们提出了一种新颖的聚焦线性注意力模块,以实现高效率和表现力。具体而言,我们首先从两个视角分析了导致线性注意力性能下降的因素:聚焦能力和特征多样性。为了克服这些限制,我们引入了一个简单而有效的映射函

2024-03-01 15:48:33 1427

原创 ICCV2023:A Dynamic Dual-Processing Object Detection Framework Inspired by the Brain‘s Recognition Me

目标检测的两种方法:CNN-based 和 Transformer-based, 前者将该任务视为 a dense local matching problem, and the latter sees it as s sparse global retrieval problem.Research in neuroscience has shown that the recognition decision in the brain is based on two processes, namely f

2024-03-01 11:17:08 830

原创 python爬虫入门(一)

【代码】python爬虫入门(一)

2024-02-05 10:10:24 849

原创 Docker使用

请确保你有足够的权限来运行这些命令,通常需要具有 sudo 或 docker 组的权限。替换 为你要查看的容器的实际 ID,这会显示有关容器的详细信息。这会列出当前系统中所有的 Docker 镜像,包括镜像的 ID、仓库名、标签、大小等信息。这会显示当前正在运行的 Docker 容器的列表,包括容器的 ID、名称、状态等信息。这会显示所有的 Docker 容器,包括正在运行的和已经停止的。这会实时显示正在运行的容器的资源使用情况,包括 CPU、内存等。

2024-01-26 00:26:23 511 1

原创 CVPR2023|Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in Ecommerce

本文旨在建立一个通用的多模态基础模型,该模型具有可扩展的电子商务中大规模下游应用的能力。近年来,大规模视觉语言预训练方法在通用领域取得了显著进展。然而,由于自然图像和产品图像之间的显着差异,将这些框架直接应用于电子商务的图像级表示建模将不可避免地次优。为此,我们在这项工作中提出了一种以实例为中心的多模态预训练范式,称为ECLIP。具体来说,我们设计了一个解码器架构,该架构引入了一组可学习的实例查询,以显式聚合实例级语义。

2024-01-25 13:49:36 791

原创 音乐数据集+大模型相关(一)

下图来自 llark论文。对于音频领域,Mubert和Riffusion是近期热门的两个文本到音乐的生成模型。Mubert是一个文本到音乐的演示界面,能够根据输入的文本生成高质量的音频音乐。不过由于所有的声音都是由音乐家和声音设计师事先创造的,因此Mubert更像是在生成声音的组合,而不是音乐。Riffusion使用与Stable Diffusion相同的模型,从文本中生成频谱图,然后将其转换为音频片段。

2024-01-24 16:10:49 2205 1

原创 CVPR 2023|FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation

最近出现了开放词汇学习来完成任意类别的基于文本的描述的分割,这将分割系统推广到更通用的应用场景。然而,现有的方法致力于为特定的分割任务设计专门的架构或参数。这些定制的设计范式导致各种分割任务之间的碎片化,从而阻碍了分割模型的统一性。因此,在本文中,我们提出了FreeSeg,这是一个通用框架来完成统一、通用和开放词汇的图像分割。FreeSeg通过一次性训练优化了一个一体化网络,并采用相同的架构和参数在推理过程中无缝处理不同的分割任务。

2024-01-23 20:07:35 1002

原创 CVPR 2023 Universal Instance Perception as Object Discovery and Retrieval

所有的实例感知任务都旨在寻找由类别名称、语言表达式和目标注释等查询指定的某些对象,但是这个完整的字段被分成了多个独立的子任务。在这项工作中,我们提出了下一代的通用实例感知模型,称为UNINEXT。UNINEXT将不同的实例感知任务重新制定为统一的对象发现和检索范式,并且可以通过简单地改变输入提示来灵活地感知不同类型的对象。这种统一的公式带来了以下好处:(1)来自不同任务和标签词汇表的大量数据可以被利用来联合训练通用实例级表示,这对于缺乏训练数据的任务特别有益。

2024-01-23 17:04:27 1077

原创 conda使用,pip使用

这个时候,两个numpy可能就打架了。pip install xxx:分两种情况,一种情况就是当前conda环境的python是conda安装的,和系统的不一样,那么xxx会被安装到anaconda3/envs/current_env/lib/python3.x/site-packages文件夹中,如果当前conda环境用的是系统的python,那么xxx会通常会被安装到~/.local/lib/python3.x/site-packages文件夹中。商业转载请联系作者获得授权,非商业转载请注明出处。

2024-01-22 17:00:25 589

原创 ICLR2023: What do vision transformers learn? A visual exploration

视觉转换器 (ViT) 正迅速成为计算机视觉事实上的架构,但我们对它们的工作原理和学习内容知之甚少。虽然现有的研究直观地分析了卷积神经网络的机制,但对ViT的类似探索仍然具有挑战性。在本文中,我们首先解决了在ViT上执行可视化的障碍。在这些解决方案的帮助下,我们观察到使用语言模型监督(例如,CLIP)训练的ViT中的神经元是由语义概念而不是视觉特征激活的。我们还探索了ViT和CNN之间的潜在差异,我们发现transformer检测图像背景特征,就像它们的卷积对应物一样,但它们的预测对高频信息的依赖要小得多。

2023-12-28 12:39:01 1000

原创 One Wide Feedforward is All You Need -- working

transformer网络结构下,为减少参数量和计算量,如何优化FFN呢?

2023-10-31 15:14:14 132

原创 机器学习变量--函数使用

【代码】机器学习变量--函数使用。

2023-10-27 13:55:42 64

原创 服务器使用解析

参考来源:

2023-10-23 16:45:44 58

原创 docker配置的问题与解决

docker设置

2023-10-21 10:45:36 136

原创 Conda常用命令使用&&常见错误

创建conda虚拟环境。激活conda虚拟环境。

2023-07-09 10:17:53 125

原创 Error: import nltk import-im6.q16: unable to open X server `‘ @ error/import.c...

要 先进入python,后导入;

2023-07-09 09:30:17 687

原创 安装GPU版本的pytorch(官网安装pytorch只有cpu版本)

pytorch如何下载gpu格式

2022-09-26 20:19:37 1308 1

原创 机器学习模型总结

关于机器学习常用的一些模型,现阶段主要总结神经网络相关模型,会持续添加;

2022-09-26 15:51:01 334

原创 python基本对象和函数介绍

python的基本对象和基本函数使用

2022-06-29 22:18:43 756

原创 Python机器学习相关

python机器学习方面的一些模型和使用

2022-06-29 21:34:44 308

原创 linux常用命令

linux命令总结

2022-06-29 21:33:08 449

原创 C++学习

C++基础知识讲解

2022-02-07 19:12:43 455

原创 网络连接之Socket编程

网络连接之Socket编程

2022-02-07 19:08:08 173

原创 计导相关问题

**内容**1.链表匹配问题2.和谐词汇3.过滤注释

2022-02-07 11:19:26 641

原创 数据结构的一些算法

**内容**1.BM算法2.栈的使用3.利用哈弗曼树实现文件压缩4.约瑟夫问题5.链表的相关操作6.栈、队列的相关操作7.树的相关操作

2022-02-07 11:06:46 423

原创 SQL之我的错误语句

踩过的坑真不少

2021-12-31 21:59:03 319

原创 30天自制操作系统笔记

注意:第八天之后才开始动手写程序,要将之前的运算过程添加到后面开发操作系统,步骤:1 在Windows或其他系统上编写源代码2 用C语言编译器编译源代码,生成机器语言文库3 对机器语言文件进行加工,生成软盘映像文件4 对映像文件写入磁盘,做成含操作系统的启动盘启动区 软盘的第一个扇区(扇区为512个字节)叫做启动区。计算机从最初一个扇区开始读软盘,最后去检查这个扇区最后两个字节的内容,如果不是55AA,就会认为这张盘上没有所需的启动程序。IPL 启动程序加载器16位寄存器ax accum

2021-12-31 21:57:03 623

原创 知识图谱与问答系统

知识图谱与问答系统

2021-12-31 21:55:11 453

原创 SQL简易总结--基本操作、单表操作、多表操作

SQL总结

2021-12-17 00:21:56 377

原创 算法思想总结

算法思想总结

2021-12-12 16:16:35 74

原创 github使用操作

github使用操作

2021-12-12 16:15:36 66

原创 C语言总结

C语言常见总结1.通过调用指针,交换数值2.带头结点和不带头结点链表的区别一、两者区别:1、不带头结点的单链表对于第一个节点的操作与其他节点不一样,需要特殊处理,这增加了程序的复杂性和出现bug的机会,因此,通常在单链表的开始结点之前附设一个头结点。2、带头结点的单链表,初始时一定返回的是指向头结点的地址,所以一定要用二维指针,否则将导致内存访问失败或异常。3、带头结点与不带头结点初始化、插入、删除、输出操作都不一样,在遍历输出链表数据时,带头结点的判断条件是while(head->n

2021-04-23 19:32:36 450

原创 C++模块总结

实现运算符重载运算符重载是对已有运算符赋予多重含义操作符重载的两种形式要注意的是:进行指针相等操作时,可能发生内存泄露;因为指针a=b,给a赋予b的值,相当于将a所指向地址改成b所指向地址,而a原来所指向地址发生丢失。...

2021-04-16 16:03:41 960

原创 C++常见问题总结

C++问题总结模块编程之路总是路漫漫其修远兮,吾将上下而求索。1.no matching function for call to借用CSDN某位的文章,成功修改错误大概截图如下源代码:

2021-04-16 15:52:59 1216

北邮809数据结构面试题

部分人工智能常识问答,基础知识总结

2023-07-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除