w_study_ty-CSDN博客

原创语义分割数据集的扩充

语义分割数据集语义分割数据集的mask图片并不是8bit的灰度图，而是png图片特有的通过调色盘去设置颜色的单通道8bit彩色图片，通过调色盘对应的值来显示对应的颜色，并且mask对应的值也对应着类别的标签。当通过cv2去对图片进行扩充的时候，cv2的图片读取方式的原因，会将图片读取成3通道的彩图，并且保存时会保存成24bit的图片（即3通道8bit），所以语义分割数据集的mask最好不要用cv2进行读取处理，本文方法使用的是PIL库的Image方法对mask图片进行读取，并且使用PIL库的中的方法对

2022-02-22 14:45:11 1433 4

原创 Swin Transformer:Hierarchical Vision Transformer using Shifted Windows 论文阅读

该论文是Transformer模型在计算机视觉领域的应用，Swin Transformer的输入与DETR不同，同为Transformer模型在计算机视觉领域的应用，Swin Transformer是直接将image作为输入不需要CNN为主干网络进行特征提取，而且DETR是将image输入到CNN主干网络中进行特征提取，然后将feature map当作输入进行embedding。Swin Transformer提出的层级转换器，为了解决计算复杂度问题，以及多层特征融合问题，其中对patch进行编码和层级转换

2021-12-06 18:45:51 2201

原创 anaconda prompt中安装Labelme

Labelme是一个常用的数据集标注工具，为了不和其他的python外部库冲突（安装依赖影响其他外部库的使用），通过anaconda创建虚拟环境进行环境隔离来安装Labelme标注工具。首先需要安装anaconda，网上会有很多安装anaconda的方法，通过网上的安装方法并且配置完环境之后进行虚拟环境：进入虚拟环境的方法有两个，一个是通过命令行，另一个是通过anaconda prompt直接进入base环境。1.首先是通过cmd命令行进入base环境。win+R，输入cmd打开命令行activa

2021-11-25 19:45:38 1551 3

原创 Deformable DETR：DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 论文阅读

该论文为Transformer跨界论文，在原有的DETR的基础上做出改进，并且在COCO 2017数据集上取得了理想的成绩。该模型针对DETR收敛速度慢，训练时间长和对小物体检测效果不理想进行了相应的改进。网络结构该论文与DETR结构类似，同样也是由CNN进行特征的提取，通过Transformer模块进行特征和位置编码解码。1.主干网络Deformable DETR的主干网络也是采用的CNN进行特征提取，该论文主要使用了ResNet-50和ResNet-101作为主干网络，在ImageNet上进

2021-10-12 20:10:35 739

原创 Anchor DETR: Query Design for Transformer-Based Detector 论文阅读

该论文为为最近比较热门的Transformer跨界论文，以DETR为基础进行改进，并且再COCO数据集上取得了很好的成绩。该结构主要就两个方向进行改进，第一个是同一区域多个目标的问题，第二个是attention机制内存消耗的问题。网络结构该论文与DETR结构类似，同样由CNN与Transformer组成。先由CNN进行特征提取，再由Transformer结构将特征进行编码和预测。1.主干网络该论文中主干网络与DETR相同，同样是CNN进行提取特征，本文中主要使用ResNet-50和ResNet

2021-10-03 11:14:30 1189

原创 End-to-End Object Detection with Transformers 论文阅读

该论文为跨界论文，将机器翻译的Transformer结构用在了目标检测以及语义分割上，在COCO数据集上超越了Faster R-CNN。将Transformer应用到计算机视觉方面，简化了检测的流程（不需要很多手动设计的组件，如非最大抑制，或者锚）。该网络基于集合的全局损耗，通过二分匹配和Transformer中的编码解码器架构来进行预测。网络结构该论文由CNN与Transformer组成，由CNN提取特征，再通过Transformer结构将特征进行编码预测。下图为网络各部分具体的结构。1.主干

2021-09-02 12:40:42 273

原创 Attention Is All You Need 论文学习

该论文为机器翻译方向。是attention机制为基础，以减少顺序计算为目标，将编码器解码器的复杂递归或卷积神经网络改进成本文的Transformer网络架构，避免了递归和卷积的使用。实验中表明，该模型在质量上更优越，同时更具有并行性，并且减少了训练的时间。网络结构上图为Transformer的网络结构，采用堆叠的自注意力（self-attention）和逐点全连接的解码器和编码器。编码器（Encoder）编码器结构为上图左边，由N=6个的相同层堆叠而成，每层有两个子层。这两个子层分别由Multi-

2021-08-19 10:17:48 106

w_study_ty的博客

原创语义分割数据集的扩充

原创 Swin Transformer:Hierarchical Vision Transformer using Shifted Windows 论文阅读

原创 anaconda prompt中安装Labelme

原创 Deformable DETR：DEFORMABLE TRANSFORMERS FOR END-TO-END OBJECT DETECTION 论文阅读

原创 Anchor DETR: Query Design for Transformer-Based Detector 论文阅读

原创 End-to-End Object Detection with Transformers 论文阅读

原创 Attention Is All You Need 论文学习

原创 Single-Shot Refinement Neural Network for Object Detection论文学习

原创 R3Det: Refined Single-Stage Detector with Feature Refinementfor Rotating Object论文学习

原创 Focal Loss for Dense Object Detection论文学习

空空如也

空空如也