自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(126)
  • 收藏
  • 关注

原创 PyTorch学习笔记:cuda方法——查看显卡信息

PyTorch学习笔记:cuda方法——查看显卡信息

2024-02-21 20:05:33 1519 1

原创 Python常用库:tqdm——构建进度条

功能:构建进度条,共有两种构建策略,一个是基于可迭代的对象构建进度条,做for循环迭代时会自动更新进度条;另一个是构建手动更新的进度条,这种方式灵活性更强

2024-02-21 18:09:34 561

原创 论文笔记:Deformable DETR-可变形注意力机制——DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION

论文题目:《DEFORMABLE DETR: DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION》在本文中,作者提出了可变形注意力机制,将transformer的计算度压缩为线性复杂度,在降低DETR推理速度、加速模型收敛的同时引入了多尺度信息,极大地提升了DETR目标检测算法的性能。

2024-02-21 16:03:30 2332

原创 论文笔记:DINO用于视觉自监督学习的知识蒸馏算法——Emerging Properties in Self-Supervised Vision Transformers

论文题目:《Emerging Properties in Self-Supervised Vision Transformers》|作者利用知识蒸馏和动量更新策略实现了ViT模型在视觉任务上的自监督训练,通过摆脱标签的约束,充分挖掘了ViT算法的特征表示潜力。利用自监督学习的ViT特征明确包含了场景布局,特别是对象边界,这些关注区域可以在最后一个自注意力关注模块中直接提取,同时,自监督ViT网络所提取的特征在基本近邻分类器k-NN下表现特别好,无需任何微调就可以在ImageNet上达到78.3%的准确率。

2024-02-21 11:57:12 1622 1

原创 论文笔记:DETR-目标检测新范式——基于Transformers的端到端目标检测器

论文题目:《End-to-End Object Detection with Transformers》传统的目标检测都不是端到端的检测方法(例如Faster R-CNN,YOLOv3等等),网络的输出较多,需要再利用NMS运算过滤重叠率较高的边界框,解决冗余问题,并且基于锚点的算法还需要根据具体任务来预设锚点,实施起来比较麻烦。本文提出了一种新的目标检测网络架构,可以实现端到端运算,网络输出的结果就是最终的预测结果,不需要额外的运算。

2024-02-21 11:42:38 1321

原创 Python常用库:rearrange函数——转换数组维度

Python常用库:rearrange函数——转换数组维度功能:重新划分张量维度,可以实现数组的转置、拆分、合并等操作。

2024-02-18 20:35:35 2943

原创 PyTorch学习笔记:nn.GELU——GELU激活函数

PyTorch学习笔记:nn.GELU——GELU激活函数出自论文《GAUSSIAN ERROR LINEAR UNITS (GELUS)》- 相比于ReLU,GELU函数在临近原点时梯度不为零,减少了训练过程中梯度消失的问题;- 导函数比较光滑,无间断情况,容易做反向传播;- RELU计算复杂度较低,同时具有良好的性能,常用于大规模训练的任务,例如BERT、GPT等等。

2024-02-18 20:24:46 3569

原创 论文笔记:ViT Adapter——Transformer与CNN特征融合,屠榜语义分割!

论文题目:《VISION TRANSFORMER ADAPTER FOR DENSE PREDICTIONS》本工作主要针对普通ViT缺少视觉特定的归纳偏置问题做改进,设计了ViT-Adapter模块,利用交叉注意力,充分将CNN中局部空间建模的能力融入到ViT模型中,在**保持原有ViT架构不变,即ViT语义特征不减弱的情况下,灵活地将图像相关的归纳偏置注入到ViT模型中**,重构密集预测任务所需要的细粒度多尺度特征,最终实现下游任务良好的应用。

2024-02-04 22:37:49 2102

原创 Pytorch学习笔记:LambdaLR——自定义学习率变化器

Pytorch学习笔记:LambdaLR——自定义学习率变化器将每个参数的学习率设置为初始的`lr`乘以一个权重系数`factor`,用于调整学习率大小,其中权重系数`factor`由函数`lr_lambda`得到,这里可以为每个层设置不同的学习率调整策略。

2024-02-04 22:32:31 1158

原创 Linux查看进程信息——ps指令/proc文件

Linux查看进程信息——ps指令/proc文件夹Linux根据进程PID查看进程信息

2024-01-22 20:37:17 1051

原创 Linux利用百度网盘上传/下载数据——bypy指令

Linux利用百度网盘上传/下载数据——bypy指令

2024-01-22 20:35:37 1819

原创 [Linux]报错:Failed CC version check. Bailing out!

[Linux]报错:Failed CC version check. Bailing out!

2024-01-01 19:56:08 849

原创 [Nvidia]驱动安装报错:An NVIDIA kernel module ‘nvidia-xxx‘ appears to already be loaded in your kernel

[Nvidia]驱动安装报错:An NVIDIA kernel module 'nvidia-xxx' appears to already be loaded in your kernel

2024-01-01 19:53:26 2289

原创 [NVIDIA]驱动报错:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver

[NVIDIA]驱动报错:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver

2024-01-01 19:47:03 1205

原创 conda、pip常用指令

conda、pip常用指令

2024-01-01 19:42:26 730 1

原创 LaTeX学习笔记:特殊符号

LaTeX学习笔记:特殊符号

2024-01-01 19:39:24 394

原创 论文及源码笔记:Transformer——Attention Is All You Need

Transformer论文及源码笔记——Attention Is All You NeedTransformer结构优点:长程依赖性处理能力强:自注意力机制可以实现对整张图片进行全局信息的建模;并行化能力强:可以并行计算输入序列中的所有位置;

2023-08-09 10:07:21 319

原创 ViT常见的模型规格以及源码记录

ViT常见的模型规格以及源码记录

2023-08-09 10:04:03 432

原创 HDR论文笔记:HDR-Transformer——Ghost-free High Dynamic Range Imaging with Context-aware Transformer

在本文中,作者提出了一种双分支上下文感知Transformer,通过加入局部特征提取器(即引入卷积操作)来克服传统ViT在局部建模上的不足,扩展了标准的ViT模块,可以实现全局和局部上下文的同时建模。此外,基于所设计的CA-ViT模块,作者提出了用于HDR成像的HDR-Transformer网络,通过结合Transformer和CNN的优点,来有效地缓解HDR成像过程中容易产生重影的问题。

2023-08-09 09:50:58 700 3

原创 目标检测:Faster R-CNN——ROI Head模块介绍及源码笔记

目标检测:Faster R-CNN——ROI Head模块介绍及源码笔记目的:为RPN模块提供的每个proposal进行类别预测和回归参数的预测,预测对象类别和微调RPN预测出来的边界区域输入:特征图、proposal输出:物体类别以及对应的边界框坐标模块流程:损失计算过程(这里与RPN模块类似):流程图原创,使用请转载。

2023-08-09 09:43:09 920

原创 目标检测:Faster R-CNN——RPN模块介绍及源码笔记

目标检测:Faster R-CNN——RPN模块介绍及源码笔记目的:预测出图像中目标所在的位置输入:特征图输出:物体边界框,大致将图像中的物体标注出来模块流程:损失计算过程:流程图原创,使用请告知。

2023-08-09 09:39:30 923

原创 目标检测:Faster R-CNN——网络整体结构介绍及源码笔记

目标检测:Faster R-CNN网络整体结构源码笔记及细节介绍论文题目:《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》

2023-08-09 09:33:34 376

原创 论文及代码笔记:Swin Transformer——Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

论文及代码笔记:Swin Transformer——Swin Transformer: Hierarchical Vision Transformer using Shifted Windows视觉中常常涉及多尺度问题,需要模型可以捕捉图像上多个尺度的信息(如目标检测中的大物体和小物体),而ViT算法尺度单一,与最初Patch的划分方法有关,因此ViT算法欠缺获取多尺度信息的能力;ViT算法在计算注意力时,是在全局的图像位置上计算注意力,因此计算复杂度较高,计算量随图像尺寸的增加呈平方速度增加。

2023-08-09 09:26:59 354

原创 Pytorch学习笔记:hook操作——提取特征、梯度等信息

Pytorch学习笔记:hook操作——提取特征、梯度等信息 PyTorch在每一次运算结束后都会释放中间变量,从而节省内存空间,例如释放模型中间得到的特征数据、反向传播过程中的梯度等等,因此就有了hook方法,可以操作中间变量,如保存梯度、保存中间特征数据,也可以对中间变量做修改,如增大梯度、限制梯度范围等等,核心在于hook函数的定义。

2023-08-09 09:20:53 978

原创 图像质量评估指标——PSNR介绍及计算方法

PSNR全称为Peak Signal to Noise Ratio,即峰值信噪比,是一种评价图像的客观标准,经常用于计算两幅图像的可视化误差,如衡量原图与经过压缩后图像之间的可视化差异、生成网络生成的图像与真实图像之间的差异等等。

2023-06-26 17:25:44 7357

原创 图像质量评估指标——SSIM介绍及计算方法

SSIM全称为Structural Similarity,即结构相似性,用于评估两幅图像相似度的指标,常用于衡量图像失真前与失真后的相似性,也用于衡量模型生成图像的真实性,如图像去雨、图像去雾、图像和谐化等等。SSIM的计算,即每次计算均从图片上取一个尺寸为N×N的窗口,基于窗口计算SSIM指标,,作为。假设x表示第一张图像窗口中的数据,y表示第二张图像窗口中的数据。其中图像的相似性由三部分构成:luminance(亮度)、contrast(对比度)和structure(结构)。

2023-06-26 17:25:00 19266 6

原创 Linux:apt常用命令

Ubuntu系统中查找、安装、升级、删除某个以及一组软件包,执行apt命令需要超级管理员权限(root)

2023-06-26 17:22:32 1781

原创 Linux:screen命令——命令行的窗口操作

功能:管理命令行终端切换的软件,常用于远程连接Linux过程中,同时使用多个命令行窗口。在窗口运行中的程序,记住窗口名字前面的序号,重新连接该窗口时会用到。,可以自取窗口名字,这里窗口被命名为demo。键即可,退出之后窗口中的指令程序仍会继续执行。

2023-06-26 17:20:16 5852

原创 目标检测:YOLOv3-SPP网络介绍及代码笔记

目标检测:YOLOv3-SPP网络介绍及代码笔记

2023-06-26 16:15:52 606

原创 目标检测:RetinaNet网络介绍及代码笔记

目标检测:RetinaNet网络介绍及代码笔记

2023-06-26 16:06:12 566

原创 目标检测:IoU介绍及其改进

在目标检测中常用到一个指标IoU,又称交并比,用于衡量一幅图像中两个边界框的重合度。在训练阶段,可以用于衡量锚框和物体边界框之间的相似度,来给每个锚点划分正负样本,即给锚点匹配标签,同时也可以用作损失函数,通过提高预测边界框与真实边界框之间的相似度来改善网络预测物体边界框的能力;在测试阶段,可以利用IoU来衡量预测边界框之间的重合度,用于过滤重合度高的边界框,即参与NMS运算。计算公式边界框A和边界框B之间的交集区域面积除以并集区域面积IoUA∩BA∪BIoUA∪BA∩B​。

2023-06-26 16:01:23 1916

原创 目标检测:锚点介绍及应用

锚点相当于在待预测的特征数据上预设出可能的物体边界框,即预设出特征数据可能代表的物体区域,每个区域通常由两个属性构成——尺度(scale或size)和比例(ratios),即区域面积和区域矩形的宽高比例,也可以是锚点宽高数据。每个锚点都是在特征图像素点的基础上设置。

2023-06-26 15:58:54 3036

原创 目标检测:回归参数介绍及应用

虽然通过设定锚点,可以让特征图上的像素点代表形状不一的矩形区域,但实际需要检测的区域宽高比例具有未知性,我们不可能预设出所有可能出现的比例,因此并不能单单依靠锚点来完成对区域的检测。这时就引入了回归参数这一概念,回归参数相当于是锚点与物体边界框(以下简称边界框)之间的**“桥梁”,我们可以找出与边界框最相似锚点,之后利用回归参数,将锚点所代表的区域微调成边界框所代表的区域,因此回归参数往往有四个值,分别对应定位锚点矩形区域的四个值,可以是矩形框的宽、高、中心点坐标的xxx和yyy。

2023-06-26 15:54:44 565

原创 数据增强——仿射变换

数据增强——仿射变换,常用于图像的数据增广,扩充训练数据,包括:旋转、平移、缩放、错切。

2023-06-25 11:03:53 316

原创 目标检测数据增强:mosaic增强

目标检测数据增强:mosaic增强,将四张图片以随机缩放、随机裁减、随机排布的方式拼接在一起,组成一张图片。

2023-06-25 11:00:06 1409

原创 非局部注意力:NL论文笔记——Non-local Neural Networks

非局部注意力:NL论文笔记——Non-local Neural Networks

2023-06-25 10:48:13 885 1

原创 焦点损失:Focal Loss论文笔记——Focal Loss for Dense Object Detection

焦点损失:Focal Loss论文笔记——Focal Loss for Dense Object Detection

2023-06-25 10:46:51 1274 1

原创 特征金字塔:FPN论文笔记——Feature Pyramid Networks for Object Detection

特征金字塔:FPN论文笔记——Feature Pyramid Networks for Object Detection

2023-06-25 10:44:28 624 1

原创 域适应目标检测算法总结

本文为笔者根据部分顶会文章所写的域适应目标检测算法总结,同时包括一些该方向的思考,相信你读完肯定会有很大的收获。

2023-06-25 10:28:41 644 1

原创 域适应目标检测算法笔记汇总

域适应目标检测算法笔记汇总

2023-06-25 10:13:00 498 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除