自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 语义分割原理分析以及Unet++代码调试

逐像素的交叉熵,交叉熵损失函数公式如下。pos_weight是权重项,因为正负样本比例不均衡一次要考虑此问题,增加权重参数来平衡。

2024-09-13 09:47:09 997

原创 Deformable DETR算法原理

传统的DETR解决了YOLO中锚框机制以及NMS后处理手段,DETR实现了真正的端到端结构。但DETR训练时间较长和特征空间分辨率有限,原始的DETR不能输入特别大的图像,Transformer注意力机制的限制(输入图像转换为序列后维度过大,注意力机制的计算量会显著增加),因此提出可变形DETR。可变形卷积在稀疏的特征空间中可以关注到想要关注的区域,对每个特征进行注意力偏移,偏移到更为重要的特征,但缺乏元素关系的建模机制。因此将可变性卷积和transformer结合到一起。

2024-09-05 20:34:52 235

原创 DETR源码DEBUG

main.pycoco.py是处理数据的文件,此模型只能使用coco数据集格式,自己的数据集只能转换为coco格式。其中读取一个数据,包含图像大小、目标尺寸、id等其中prepare预处理函数其中anno是图像中的目标信息,只提取iscrowd=0的,表示单个目标,不重叠的目标。boxes提取目标的x,y,w,h值,将boxes[:, 2:] += boxes[:, :2]表示得到了x1,y1,x2,y2。并判断是否过界。

2024-09-02 21:24:18 391

原创 DETR目标检测原理

先通过CNN得到各个Patch作为输入,再通过Transformer做编码,编码和VIT结构一致,重在解码,直接预测100个坐标框。(100是先验值)

2024-09-02 15:55:00 315

原创 SwinTransformer源码调试

为了了解源码的主要工作内容在SwinTransformer中Forward函数打上断点。可能好奇为什么在这个类,首先我们找到入口函数按住ctrl点击main函数,进入到对应函数中,可以发现前几行都是读入数据以及模型导入点击上述的build_model进入相应函数,可以发现主要函数为SwinTransformer。

2024-08-27 11:20:59 765

原创 SwinTransformer原理解读

传统的transformer需要将patch划分的细致,图像中像素点太多,需要更多的特征就必须构建更长的序列。因此算注意力机制时效率会更低。而SwinTransformer通过窗口和分层的形式来替代长序列的方法,先每一层提取四百个token,细粒度提取每个token的特征,再进行两两合并,将一层400个token转化为200个token,依次类推,使得效率提高。传统的Transformer每一层注意力机制都是400个token。分层的思想就是每层的token合并,类似于卷积操作的池化操作。

2024-08-12 17:10:59 997

原创 VIT源码解读

patch_size是选择多大的区域进行分块提取特征,n_patches一共有多少块(图像宽/patch_size宽)x(图像高/patch_size高)patch_embeddings卷积stride为patch_size,提取特征时的卷积不重叠提取特征。图像的第一步:图特征向量提取。cls_token为(1,1,768)进行expand将维度复制到B,这里的B是16,每个数据都要有对应的cls_token。输入(16,3,224,224)训练batch大小,3通道RGB,图像大小224x224。

2024-08-09 10:51:02 568

原创 EfficientNet

其中FLOPS为计算量不是权重参数,例如卷积计算量=H*W*K*K*M*N,卷积核K*K输入M(inputchannel)个特征图输出为N(outputchannel)个特征图,HW为输出长宽,就是H*W个输出窗口,每个窗口的参数量都是卷积K*K*inputchannel*outputchannel。普通卷积的参数会很多因为一个filter要考虑所有的输入(算蓝、黄、橙的内积再加上偏置项,每个卷积核核输入的每个通道都内积运算)3个卷积核得到3个特征图,让卷积核核输入通道一对一进行内积运算,得到3个特征图。

2024-06-07 21:18:21 357

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除