自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(55)
  • 收藏
  • 关注

原创 Transformer中的Encoder

Self-Attention在计算的时候会考虑完整地input,但是masked self-Attention只会考虑自身及其左边的input。展示一下Cross Attention模块具体是怎么执行的。

2024-10-30 19:38:53 215

原创 TransVG: End-to-End Visual Grounding with Transformers

视觉基础(也称为参考表达理解、短语定位和自然语言对象检索)。该技术的发展为人类的自然语言表达和物理世界的视觉组件提供了一个智能接口,具有很大的潜力。它在第一阶段使用一个多层感知器(MLP)来衡量区域提议和语言描述嵌入之间的相似性。:它通过直接连接(concatenation)的方式将语言向量编码到视觉特征中。在FAOA中,语言描述首先被编码成一个向量,然后这个向量与图像的视觉特征直接连接起来,形成一个融合的特征表示直接输出4-dim坐标来grounding object,而不是基于一组候选框进行预测。

2024-10-30 10:27:06 676

原创 A Simple Semi-Supervised Learning Framework for Object Detection

如果对一个未标记的数据应用实际的扰动, 其预测结果不应该发生显著变化, 也就是输出具有一致性,通过在未标记数据上构造添加扰动后的预测结果 y~​ 与正常预测结果 y之间的无监督正则化损失项, 提高模型的泛化能力。是首先为未标记的数据生成人工标签,并训练模型在为未标记的数据提供保持语义的随机增强时预测这些人工标签。本文的工作:利用深度SSL在图像分类方面的经验来解决SSL用于目标检测的问题。提出了一个用于对象检测的SSL框架,该框架结合了自我训练(通过伪标签)和基于强数据增强的一致性正则化。受。

2024-10-25 21:31:24 1075

原创 终于理解softmax回归了!!!

softmax回归理解与举例

2024-10-23 21:11:19 130

原创 Mean teachers 论文学习+代码复现

记录了在看mean teacher过程中的疑问以及简单的梳理

2024-10-23 15:17:36 1049

原创 深度学习任务及数据基本操作

人能在几秒钟做出反应的时间都可以看作是感知范围内的事情。

2024-10-16 20:41:13 243

原创 线性回归+基础算法优化

2024-10-16 20:33:46 95

原创 矩阵求导数

优化模型的求解基本都是通过求导数获得的,导函数的作用主要是用于梯度下降,不需要知道具体是怎么计算的,但是要知道input和output的形状是什么样子的

2024-10-16 18:52:46 242

原创 用SAM2和Cutie模型目标追踪

SAM2、cutie

2024-10-13 16:45:07 299

原创 DINOv2代码学习

例如,某些分割任务可能需要结合不同尺度的信息,这时候提取网络中间层的特征图就非常有用。

2024-10-13 16:14:15 1059

原创 DINOv2: Learning Robust Visual Featureswithout Supervision

在自然语言处理方面的模型,可以产生通用视觉特征(即无需微调即可跨图像分布和任务工作的特征)来极大地简化任何系统中图像的使用。这些模型能够提取出一些可以在。这意味着不管图像的来源(例如,来自不同的相机或场景)或者任务的具体需求(例如,分类、检测等),这些提取的特征都能有效工作。这种通用性能够,从而简化了图像在系统中的处理流程。那么通用的视觉特征比如:边缘和纹理、颜色和亮度分布等等。如何产生这样的通用视觉特征呢?现有的预训练方法,尤其是自监督方法,如果,可以产生此类特征。在数据方面,我们提出了一个。

2024-10-06 14:16:36 1235

原创 SAM2POINT:以zero-shot且快速的方式将任何 3D 视频分割为视频

SAM2POINT 3D作为视频分割

2024-09-08 16:08:15 1237

原创 《基础模型时代的图像分割》研究综述

图像分割的目标:将像素划分为不同的组别现代图像分割方法:①适配基础模型(例如CLIP、Stable Diffusion、DINO)用于图像分割②开发专门的分割基础模型(如SAM)

2024-09-02 20:25:22 414

原创 《多模态大规模语言模型基准》综述

为了更好地对齐不同模态的知识并避免在预训练阶段发生灾难性遗忘(即模型完全忘记了之前学到的知识),模型参数θ通常只包括一个可学习的模态接口,即vision-language projector。通过在不同场景下评估MLLMs,可以为这些领域的实际应用提供有价值的指导,从而推动MLLMs在实际问题解决中的发展和应用。评估MLLMs在处理敏感数据和执行可能对社会产生重大影响的任务时的表现,有助于确保技术的负责任使用,避免偏见和歧视。通过评估和比较不同模型,可以激发健康的竞争,推动整个领域技术的进步。

2024-08-29 11:32:23 869

原创 深度学习环境配置报错解决日记

1、detectron2需要编译首先需要在自己创建的虚拟环境中下载一下detectron2接下来就是编译环节:在win系统中,需要安装VS加以编译在Linux系统中:不需要安装无论哪个系统,再执行一下注意:在编译的时候,在setup.py的上一层目录中执行编译。2、在Linux终端使用命令行的方式运行代码的时候,注意python的正确路径,比如下面这个,python所在的位置是我自己创建的虚拟环境中的python,后面在跟上要执行的python文件就可以了。

2024-07-24 20:03:21 218

原创 GPU配置pytorch环境(links for torch)

四、从links for torch网站下载与自己cuda版本和python版本对应的torch。三、打开或新建一个pycharm项目,把环境选成我们刚刚新建的虚拟环境。五、在pycharm的终端pip install 安装torch。六、验证pytorch是否成功安装。一、创建一个新的虚拟环境。

2024-06-30 17:07:37 315

原创 目标检测之YoloV1

输入448*448*3的图像到生成7*7*30的张量的过程,这个过程可以看成是一个黑盒子进行处理的,那么我们现在要研究一下7*7*30的张量是怎么生成最后的结果的?解释:每个grid cell只能有一个类别概率,从所有的预测的类别概率中选择最高的那一个代表这个格子的所属的类别,也就是说每个格子只能预测出一个类别。在预测阶段Yolo就相当于一个黑箱子,输入的是448*448*3的图像,输出是7*7*30的张量,包含了所有预测框的坐标、置信度和类别。20:20个类别,这个小框可能的所属的类别的概率。

2024-06-27 18:26:37 662

原创 Pytorch nn.Module

torch.nn是 PyTorch 中用于构建神经网络的模块。它提供了一系列的类和函数,用于定义神经网络的各种层、损失函数、优化器等。torch.nnModule: 所有神经网络模型的基类,用于定义自定义神经网络模型。Linear: 线性层,进行线性变换。Conv2d: 二维卷积层。RNNLSTMGRU: 循环神经网络层,分别对应简单RNN、长短时记忆网络(LSTM)、门控循环单元(GRU)。: 二维批归一化层。MSELoss: 分类交叉熵损失函数和均方误差损失函数等。等等torch.nn。

2024-03-15 10:32:20 1131

原创 迁移学习怎么用

许多计算机视觉的研究者已经在上面训练了自己的算法,训练要耗费很长时间,很多GPU,有人已经经历过这种痛苦,可以下载这种开源的权重,为你自己的神经网络做好的初始化开端,而且可以用迁移学习来迁移知识,从这些大型公共数据库迁移知识到自己的问题上。,你可以冻结更少的层数,训练后面这些层,尽管输出层的类别与你需要的不同,你可以用最后几层权重作为初始化开始做梯度下降(训练),或者也可以去掉最后几层,用自己的神经元和最终的softmax输出(训练)。即你的数据越多,所冻结的层数可以越少,自己训练的层数可以越多。

2024-03-13 16:30:35 485

原创 Inception网络以及GoogleNet

上图中有多个inception模块,组成了一个inception网络,在有的隐藏层的地方还会输出还会做softmax。多个inception模块组成一个inception网络。

2024-03-13 15:12:32 370

原创 1×1卷积层的意义及inception层初介绍

Inception就是将多个卷积或池化操作放在一起组装成一个网络模块,它是一种基于多尺度卷积的网络结构,旨在解决传统CNN在处理不同大小的输入图像时存在的问题。主要特点:使用了多个不同尺度的卷积核来提取不同尺度的特征。这些卷积核可以并行地应用于输入图像,然后将它们的输出连接在一起,形成一个多通道的特征图。通过这种方式,Inception可以有效地处理不同大小的输入图像,并提取更丰富和多样化的特征。使用了1x1的卷积核来进行特征图的降维和升维。这些1x1的卷积核可以降低特征图的维度。

2024-03-13 14:52:18 692

原创 残差网络ResNet

ResNet就是跳跃连接。网络越深,训练错误率应该更小,但是现实情况下,会有梯度消失或爆炸等问题,倒是网络越深反而效果会不好。但是有了ResNet就可以实现网络越深,训练错误率越小的效果。

2024-03-13 11:17:59 351

原创 经典卷积神经网络LeNet-5、AlexNet、VGG-16

这里只讲一下C5,卷积核大小是5*5,通道数是120,所以卷积完成之后是1*1*120,这里形成120个卷积结果。每个都与上一层的16个图相连。所以共有(5x5x16+1)x120 = 48120个参数,同样有48120个连接。非常详细传统滤波器中每个滤波器是处理了每一维通道,这会有大量的参数和计算,为了解决这个问题,不同滤波器会处理输入块的不同通道。②以前做现在不做:原始池化层做完之后会使用sigmoid非线性操作。

2024-03-13 10:30:18 499

原创 卷积神经网络之池化层

简单直接理解池化层

2024-03-12 11:01:19 421

原创 简单卷积网络示例以及使用卷积的意义

上图中,输入图像是39*39*3,即长、宽是390,通道数是3,经过第一个滤波器(3*3*10),输出是37*37*10,通道数变为10,因为滤波器的通道数是10。最后得到7*7*40的输出图像,最后可以把这些图像展开为1960个单元,扁平化为一个向量,然后将其输入到一个逻辑回归或softmax单元,区域你是在图像识别“有猫”或者“无猫”(二元),或者试图识别任意的k中东西(多元),然后就会给出最终的输出。图像随着神经网络的深入,逐渐变小,而且通道数会逐渐增多。接下来会继续学习Pooling层和FC层。

2024-03-12 10:20:49 369

原创 吴恩达CNN之三维卷积

学习之后对卷积神经网络的工作原理有了更加深刻的理解,尤其对卷积核的个数,通道数这些名词都有了更急清楚的认识

2024-03-12 07:00:00 596 1

原创 吴恩达CNN之卷积初学习---二维卷积

我们可以把过滤器中的数值设置为需要学习的参数,通过反向传播,可以学习到不同的过滤器,实现不同的边缘检测效果。②图像角落或者边缘的像素只会在输出中被使用一次,丢失了图片上许多边界的信息。n*n图像使用f*f的过滤器得到(n-f+1)*(n-f+1)的输出。n*n图像使用f*f的过滤器得到(n-f+1)*(n-f+1)的输出。填充完再卷积的话:输出:(n+2p-f+1)*(n+2p-f+1)的实现:支持卷积的深度学习框架都会有一些函数实现这个卷积运算。经过这样的卷积操作,我们可以得到明暗的交界处。

2024-03-11 14:57:08 377

原创 算法基础---快速排序

快速排序就是递归地处理两端数字,让左右两个指针逐渐向中间逼近,直到两个指针所指位置不符合条件,就交换两个数字,再递归地处理即可。

2023-04-18 21:04:29 143

原创 第十三界省赛真题第一场

十三届省赛的第一场真题,串口部分有问题,不知道是我的软件的问题,还是代码的问题,我感觉代码没有问题

2023-03-13 16:15:23 285

原创 STM32G431RBT6---模板整理笔记之RTC

RTC读取时间

2023-02-28 20:23:08 524 1

原创 STM32G431RBT6---模板整理笔记之ADC模块

ADC模拟电压显示

2023-02-27 20:44:22 386

原创 STM32G431RBT6---模板整理之IIC总线

iic的20C02和MCP4017的相关用法和代码

2023-02-26 17:41:00 582

原创 STM32G431RBT6---模板整理笔记之USART

串口发送和接收中断

2023-02-25 11:08:53 390

原创 STM32G431RBT6----模板整理笔记之外中断

中断配置

2023-02-24 20:00:48 323

原创 STM32G431RBT6---模板整理笔记之LCD模块

LCD显示模块

2023-02-23 22:10:51 177

原创 STM32G431RBT6---模板整理笔记之KEY模块

按键模块的模板

2023-02-23 19:33:58 159

原创 STM32G431RBT6---模板整理笔记之LED模块

LED灯

2023-02-22 21:17:04 284

原创 STM32G431RBT6--Timer的功能之三输入捕获

timer的三个功能:定时器、PWM输出、输入捕获

2023-02-21 22:02:55 320

原创 STM32G431RBT6学习笔记---串口空闲中断接收和结束符接收

以特定符号作为结束符或者空闲中断接收

2023-02-21 20:36:05 949

原创 物联网通信技术复习---chapter3近距离无线通信技术

近距离无线通信技术

2023-02-11 22:34:51 448

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除