努力搞代码-CSDN博客

原创语义分割原理分析以及Unet++代码调试

逐像素的交叉熵，交叉熵损失函数公式如下。pos_weight是权重项，因为正负样本比例不均衡一次要考虑此问题，增加权重参数来平衡。

2024-09-13 09:47:09 997

传统的DETR解决了YOLO中锚框机制以及NMS后处理手段，DETR实现了真正的端到端结构。但DETR训练时间较长和特征空间分辨率有限，原始的DETR不能输入特别大的图像，Transformer注意力机制的限制（输入图像转换为序列后维度过大，注意力机制的计算量会显著增加），因此提出可变形DETR。可变形卷积在稀疏的特征空间中可以关注到想要关注的区域，对每个特征进行注意力偏移，偏移到更为重要的特征，但缺乏元素关系的建模机制。因此将可变性卷积和transformer结合到一起。

2024-09-05 20:34:52 235

原创 DETR源码DEBUG

main.pycoco.py是处理数据的文件，此模型只能使用coco数据集格式，自己的数据集只能转换为coco格式。其中读取一个数据，包含图像大小、目标尺寸、id等其中prepare预处理函数其中anno是图像中的目标信息，只提取iscrowd=0的，表示单个目标，不重叠的目标。boxes提取目标的x,y,w,h值，将boxes[:, 2:] += boxes[:, :2]表示得到了x1,y1,x2,y2。并判断是否过界。

2024-09-02 21:24:18 391

原创 DETR目标检测原理

先通过CNN得到各个Patch作为输入，再通过Transformer做编码，编码和VIT结构一致，重在解码，直接预测100个坐标框。（100是先验值）

2024-09-02 15:55:00 315

原创 SwinTransformer源码调试

为了了解源码的主要工作内容在SwinTransformer中Forward函数打上断点。可能好奇为什么在这个类，首先我们找到入口函数按住ctrl点击main函数，进入到对应函数中，可以发现前几行都是读入数据以及模型导入点击上述的build_model进入相应函数，可以发现主要函数为SwinTransformer。

2024-08-27 11:20:59 765

原创 SwinTransformer原理解读

传统的transformer需要将patch划分的细致，图像中像素点太多，需要更多的特征就必须构建更长的序列。因此算注意力机制时效率会更低。而SwinTransformer通过窗口和分层的形式来替代长序列的方法，先每一层提取四百个token，细粒度提取每个token的特征，再进行两两合并，将一层400个token转化为200个token，依次类推，使得效率提高。传统的Transformer每一层注意力机制都是400个token。分层的思想就是每层的token合并，类似于卷积操作的池化操作。

2024-08-12 17:10:59 997

原创 VIT源码解读

patch_size是选择多大的区域进行分块提取特征，n_patches一共有多少块（图像宽/patch_size宽）x（图像高/patch_size高）patch_embeddings卷积stride为patch_size，提取特征时的卷积不重叠提取特征。图像的第一步：图特征向量提取。cls_token为（1，1，768）进行expand将维度复制到B，这里的B是16，每个数据都要有对应的cls_token。输入（16，3，224，224）训练batch大小，3通道RGB，图像大小224x224。

2024-08-09 10:51:02 568

原创 EfficientNet

其中FLOPS为计算量不是权重参数，例如卷积计算量=H*W*K*K*M*N,卷积核K*K输入M(inputchannel)个特征图输出为N(outputchannel)个特征图,HW为输出长宽，就是H*W个输出窗口，每个窗口的参数量都是卷积K*K*inputchannel*outputchannel。普通卷积的参数会很多因为一个filter要考虑所有的输入(算蓝、黄、橙的内积再加上偏置项，每个卷积核核输入的每个通道都内积运算)3个卷积核得到3个特征图，让卷积核核输入通道一对一进行内积运算，得到3个特征图。

2024-06-07 21:18:21 357

qq_52093995的博客