- 博客(55)
- 收藏
- 关注
原创 Transformer中的Encoder
Self-Attention在计算的时候会考虑完整地input,但是masked self-Attention只会考虑自身及其左边的input。展示一下Cross Attention模块具体是怎么执行的。
2024-10-30 19:38:53 215
原创 TransVG: End-to-End Visual Grounding with Transformers
视觉基础(也称为参考表达理解、短语定位和自然语言对象检索)。该技术的发展为人类的自然语言表达和物理世界的视觉组件提供了一个智能接口,具有很大的潜力。它在第一阶段使用一个多层感知器(MLP)来衡量区域提议和语言描述嵌入之间的相似性。:它通过直接连接(concatenation)的方式将语言向量编码到视觉特征中。在FAOA中,语言描述首先被编码成一个向量,然后这个向量与图像的视觉特征直接连接起来,形成一个融合的特征表示直接输出4-dim坐标来grounding object,而不是基于一组候选框进行预测。
2024-10-30 10:27:06 676
原创 A Simple Semi-Supervised Learning Framework for Object Detection
如果对一个未标记的数据应用实际的扰动, 其预测结果不应该发生显著变化, 也就是输出具有一致性,通过在未标记数据上构造添加扰动后的预测结果 y~ 与正常预测结果 y之间的无监督正则化损失项, 提高模型的泛化能力。是首先为未标记的数据生成人工标签,并训练模型在为未标记的数据提供保持语义的随机增强时预测这些人工标签。本文的工作:利用深度SSL在图像分类方面的经验来解决SSL用于目标检测的问题。提出了一个用于对象检测的SSL框架,该框架结合了自我训练(通过伪标签)和基于强数据增强的一致性正则化。受。
2024-10-25 21:31:24 1075
原创 矩阵求导数
优化模型的求解基本都是通过求导数获得的,导函数的作用主要是用于梯度下降,不需要知道具体是怎么计算的,但是要知道input和output的形状是什么样子的
2024-10-16 18:52:46 242
原创 DINOv2: Learning Robust Visual Featureswithout Supervision
在自然语言处理方面的模型,可以产生通用视觉特征(即无需微调即可跨图像分布和任务工作的特征)来极大地简化任何系统中图像的使用。这些模型能够提取出一些可以在。这意味着不管图像的来源(例如,来自不同的相机或场景)或者任务的具体需求(例如,分类、检测等),这些提取的特征都能有效工作。这种通用性能够,从而简化了图像在系统中的处理流程。那么通用的视觉特征比如:边缘和纹理、颜色和亮度分布等等。如何产生这样的通用视觉特征呢?现有的预训练方法,尤其是自监督方法,如果,可以产生此类特征。在数据方面,我们提出了一个。
2024-10-06 14:16:36 1235
原创 《基础模型时代的图像分割》研究综述
图像分割的目标:将像素划分为不同的组别现代图像分割方法:①适配基础模型(例如CLIP、Stable Diffusion、DINO)用于图像分割②开发专门的分割基础模型(如SAM)
2024-09-02 20:25:22 414
原创 《多模态大规模语言模型基准》综述
为了更好地对齐不同模态的知识并避免在预训练阶段发生灾难性遗忘(即模型完全忘记了之前学到的知识),模型参数θ通常只包括一个可学习的模态接口,即vision-language projector。通过在不同场景下评估MLLMs,可以为这些领域的实际应用提供有价值的指导,从而推动MLLMs在实际问题解决中的发展和应用。评估MLLMs在处理敏感数据和执行可能对社会产生重大影响的任务时的表现,有助于确保技术的负责任使用,避免偏见和歧视。通过评估和比较不同模型,可以激发健康的竞争,推动整个领域技术的进步。
2024-08-29 11:32:23 869
原创 深度学习环境配置报错解决日记
1、detectron2需要编译首先需要在自己创建的虚拟环境中下载一下detectron2接下来就是编译环节:在win系统中,需要安装VS加以编译在Linux系统中:不需要安装无论哪个系统,再执行一下注意:在编译的时候,在setup.py的上一层目录中执行编译。2、在Linux终端使用命令行的方式运行代码的时候,注意python的正确路径,比如下面这个,python所在的位置是我自己创建的虚拟环境中的python,后面在跟上要执行的python文件就可以了。
2024-07-24 20:03:21 218
原创 GPU配置pytorch环境(links for torch)
四、从links for torch网站下载与自己cuda版本和python版本对应的torch。三、打开或新建一个pycharm项目,把环境选成我们刚刚新建的虚拟环境。五、在pycharm的终端pip install 安装torch。六、验证pytorch是否成功安装。一、创建一个新的虚拟环境。
2024-06-30 17:07:37 315
原创 目标检测之YoloV1
输入448*448*3的图像到生成7*7*30的张量的过程,这个过程可以看成是一个黑盒子进行处理的,那么我们现在要研究一下7*7*30的张量是怎么生成最后的结果的?解释:每个grid cell只能有一个类别概率,从所有的预测的类别概率中选择最高的那一个代表这个格子的所属的类别,也就是说每个格子只能预测出一个类别。在预测阶段Yolo就相当于一个黑箱子,输入的是448*448*3的图像,输出是7*7*30的张量,包含了所有预测框的坐标、置信度和类别。20:20个类别,这个小框可能的所属的类别的概率。
2024-06-27 18:26:37 662
原创 Pytorch nn.Module
torch.nn是 PyTorch 中用于构建神经网络的模块。它提供了一系列的类和函数,用于定义神经网络的各种层、损失函数、优化器等。torch.nnModule: 所有神经网络模型的基类,用于定义自定义神经网络模型。Linear: 线性层,进行线性变换。Conv2d: 二维卷积层。RNNLSTMGRU: 循环神经网络层,分别对应简单RNN、长短时记忆网络(LSTM)、门控循环单元(GRU)。: 二维批归一化层。MSELoss: 分类交叉熵损失函数和均方误差损失函数等。等等torch.nn。
2024-03-15 10:32:20 1131
原创 迁移学习怎么用
许多计算机视觉的研究者已经在上面训练了自己的算法,训练要耗费很长时间,很多GPU,有人已经经历过这种痛苦,可以下载这种开源的权重,为你自己的神经网络做好的初始化开端,而且可以用迁移学习来迁移知识,从这些大型公共数据库迁移知识到自己的问题上。,你可以冻结更少的层数,训练后面这些层,尽管输出层的类别与你需要的不同,你可以用最后几层权重作为初始化开始做梯度下降(训练),或者也可以去掉最后几层,用自己的神经元和最终的softmax输出(训练)。即你的数据越多,所冻结的层数可以越少,自己训练的层数可以越多。
2024-03-13 16:30:35 485
原创 Inception网络以及GoogleNet
上图中有多个inception模块,组成了一个inception网络,在有的隐藏层的地方还会输出还会做softmax。多个inception模块组成一个inception网络。
2024-03-13 15:12:32 370
原创 1×1卷积层的意义及inception层初介绍
Inception就是将多个卷积或池化操作放在一起组装成一个网络模块,它是一种基于多尺度卷积的网络结构,旨在解决传统CNN在处理不同大小的输入图像时存在的问题。主要特点:使用了多个不同尺度的卷积核来提取不同尺度的特征。这些卷积核可以并行地应用于输入图像,然后将它们的输出连接在一起,形成一个多通道的特征图。通过这种方式,Inception可以有效地处理不同大小的输入图像,并提取更丰富和多样化的特征。使用了1x1的卷积核来进行特征图的降维和升维。这些1x1的卷积核可以降低特征图的维度。
2024-03-13 14:52:18 692
原创 残差网络ResNet
ResNet就是跳跃连接。网络越深,训练错误率应该更小,但是现实情况下,会有梯度消失或爆炸等问题,倒是网络越深反而效果会不好。但是有了ResNet就可以实现网络越深,训练错误率越小的效果。
2024-03-13 11:17:59 351
原创 经典卷积神经网络LeNet-5、AlexNet、VGG-16
这里只讲一下C5,卷积核大小是5*5,通道数是120,所以卷积完成之后是1*1*120,这里形成120个卷积结果。每个都与上一层的16个图相连。所以共有(5x5x16+1)x120 = 48120个参数,同样有48120个连接。非常详细传统滤波器中每个滤波器是处理了每一维通道,这会有大量的参数和计算,为了解决这个问题,不同滤波器会处理输入块的不同通道。②以前做现在不做:原始池化层做完之后会使用sigmoid非线性操作。
2024-03-13 10:30:18 499
原创 简单卷积网络示例以及使用卷积的意义
上图中,输入图像是39*39*3,即长、宽是390,通道数是3,经过第一个滤波器(3*3*10),输出是37*37*10,通道数变为10,因为滤波器的通道数是10。最后得到7*7*40的输出图像,最后可以把这些图像展开为1960个单元,扁平化为一个向量,然后将其输入到一个逻辑回归或softmax单元,区域你是在图像识别“有猫”或者“无猫”(二元),或者试图识别任意的k中东西(多元),然后就会给出最终的输出。图像随着神经网络的深入,逐渐变小,而且通道数会逐渐增多。接下来会继续学习Pooling层和FC层。
2024-03-12 10:20:49 369
原创 吴恩达CNN之卷积初学习---二维卷积
我们可以把过滤器中的数值设置为需要学习的参数,通过反向传播,可以学习到不同的过滤器,实现不同的边缘检测效果。②图像角落或者边缘的像素只会在输出中被使用一次,丢失了图片上许多边界的信息。n*n图像使用f*f的过滤器得到(n-f+1)*(n-f+1)的输出。n*n图像使用f*f的过滤器得到(n-f+1)*(n-f+1)的输出。填充完再卷积的话:输出:(n+2p-f+1)*(n+2p-f+1)的实现:支持卷积的深度学习框架都会有一些函数实现这个卷积运算。经过这样的卷积操作,我们可以得到明暗的交界处。
2024-03-11 14:57:08 377
原创 算法基础---快速排序
快速排序就是递归地处理两端数字,让左右两个指针逐渐向中间逼近,直到两个指针所指位置不符合条件,就交换两个数字,再递归地处理即可。
2023-04-18 21:04:29 143
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人