自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 语义分割数据集的扩充

语义分割数据集语义分割数据集的mask图片并不是8bit的灰度图,而是png图片特有的通过调色盘去设置颜色的单通道8bit彩色图片,通过调色盘对应的值来显示对应的颜色,并且mask对应的值也对应着类别的标签。当通过cv2去对图片进行扩充的时候,cv2的图片读取方式的原因,会将图片读取成3通道的彩图,并且保存时会保存成24bit的图片(即3通道8bit),所以语义分割数据集的mask最好不要用cv2进行读取处理,本文方法使用的是PIL库的Image方法对mask图片进行读取,并且使用PIL库的中的方法对

2022-02-22 14:45:11 1433 4

原创 Swin Transformer:Hierarchical Vision Transformer using Shifted Windows 论文阅读

该论文是Transformer模型在计算机视觉领域的应用,Swin Transformer的输入与DETR不同,同为Transformer模型在计算机视觉领域的应用,Swin Transformer是直接将image作为输入不需要CNN为主干网络进行特征提取,而且DETR是将image输入到CNN主干网络中进行特征提取,然后将feature map当作输入进行embedding。Swin Transformer提出的层级转换器,为了解决计算复杂度问题,以及多层特征融合问题,其中对patch进行编码和层级转换

2021-12-06 18:45:51 2201

原创 anaconda prompt中安装Labelme

Labelme是一个常用的数据集标注工具,为了不和其他的python外部库冲突(安装依赖影响其他外部库的使用),通过anaconda创建虚拟环境进行环境隔离来安装Labelme标注工具。首先需要安装anaconda,网上会有很多安装anaconda的方法,通过网上的安装方法并且配置完环境之后进行虚拟环境:进入虚拟环境的方法有两个,一个是通过命令行,另一个是通过anaconda prompt直接进入base环境。1.首先是通过cmd命令行进入base环境。win+R,输入cmd打开命令行activa

2021-11-25 19:45:38 1551 3

原创 Deformable DETR:DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 论文阅读

该论文为Transformer跨界论文,在原有的DETR的基础上做出改进,并且在COCO 2017数据集上取得了理想的成绩。该模型针对DETR收敛速度慢,训练时间长和对小物体检测效果不理想进行了相应的改进。网络结构该论文与DETR结构类似,同样也是由CNN进行特征的提取,通过Transformer模块进行特征和位置编码解码。1.主干网络Deformable DETR的主干网络也是采用的CNN进行特征提取,该论文主要使用了ResNet-50和ResNet-101作为主干网络,在ImageNet上进

2021-10-12 20:10:35 739

原创 Anchor DETR: Query Design for Transformer-Based Detector 论文阅读

该论文为为最近比较热门的Transformer跨界论文,以DETR为基础进行改进,并且再COCO数据集上取得了很好的成绩。该结构主要就两个方向进行改进,第一个是同一区域多个目标的问题,第二个是attention机制内存消耗的问题。网络结构该论文与DETR结构类似,同样由CNN与Transformer组成。先由CNN进行特征提取, 再由Transformer结构将特征进行编码和预测。1.主干网络该论文中主干网络与DETR相同,同样是CNN进行提取特征,本文中主要使用ResNet-50和ResNet

2021-10-03 11:14:30 1189

原创 End-to-End Object Detection with Transformers 论文阅读

该论文为跨界论文,将机器翻译的Transformer结构用在了目标检测以及语义分割上,在COCO数据集上超越了Faster R-CNN。将Transformer应用到计算机视觉方面,简化了检测的流程(不需要很多手动设计的组件,如非最大抑制,或者锚)。该网络基于集合的全局损耗,通过二分匹配和Transformer中的编码解码器架构来进行预测。网络结构该论文由CNN与Transformer组成,由CNN提取特征,再通过Transformer结构将特征进行编码预测。下图为网络各部分具体的结构。1.主干

2021-09-02 12:40:42 273

原创 Attention Is All You Need 论文学习

该论文为机器翻译方向。是attention机制为基础,以减少顺序计算为目标,将编码器解码器的复杂递归或卷积神经网络改进成本文的Transformer网络架构,避免了递归和卷积的使用。实验中表明,该模型在质量上更优越,同时更具有并行性,并且减少了训练的时间。网络结构上图为Transformer的网络结构,采用堆叠的自注意力(self-attention)和逐点全连接的解码器和编码器。编码器(Encoder)编码器结构为上图左边,由N=6个的相同层堆叠而成,每层有两个子层。这两个子层分别由Multi-

2021-08-19 10:17:48 106

原创 Single-Shot Refinement Neural Network for Object Detection论文学习

该论文为one-stage目标检测。设计了ARM(Anchor Refinement Module)、TCB(Transfer Connection Block)、ODM(Object Detection Module)。通过ARM将box由粗到细的进行回归,再通过TCB将特征输入到ODM中。网络结构该论文采用的FPN(Feature Pyramid Network),使用了VGG16和ResNet-101作为主干网络,分别构建了ARM和ODM进行回归和分类,通过TCB将ARM和ODM的每层进行

2021-07-14 10:03:19 118

原创 R3Det: Refined Single-Stage Detector with Feature Refinementfor Rotating Object论文学习

该论文为one-stage目标检测。是以RetinaNet为基础,增加了FRM(feature refinement module)以及设计了一个可导的近似偏斜损失函数(approximate SkewIoU),目的为了解决目标检测的三大挑战:1.大纵横比目标,2.密集目标的图像,3.任意旋转目标的图像。针对不同的场景做出相对应的解决方案。网络结构该论文是在RetinaNet的基础上进行增加新的模块和改变损失函数设计而成的,每层FPN连接着分类子网(class subnet)和边界盒回归子网(b

2021-07-09 12:07:31 1814 3

原创 Focal Loss for Dense Object Detection论文学习

本文为one-stage目标检测。主要对损失函数进行改进(Focal Loss),用来解决正负样本类别不平衡问题,并且增加hard sample在损失函数中的重要性。网络结构本文的网络名为RetinaNet,基于FPN(Feature Pyramid Networks)。以FPN为主干网络,FPN可以提取不同尺度的特征。在每个特征层有两个子网络,一个是分类子网络(class subnet),另一个是边界盒回归子网络(box subnet)。1.分类子网络(class subnet)分类子

2021-07-08 14:36:09 255

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除