异想天开的长颈鹿-CSDN博客

翻译【翻译】【PANet】Path Aggregation Network for Instance Segmentation

信息在神经网络中的传播方式是非常重要的。在本文中，我们提出了路径聚合网络（PANet），旨在提高基于proposal的实例分割框架中的信息流。具体来说，我们通过自下而上的路径增强来提高整个特征层次的准确定位信号，从而缩短了低层和最顶层特征之间的信息路径。我们提出了自适应特征池，它将特征网格和所有的特征层次联系起来，使每个层次的有用信息直接传播到下面的proposal子网络。为每个proposal创建了一个捕捉不同观点的补充分支，以进一步改善掩码预测。这些改进很容易实现，但有细微的额外计算开销。

2023-02-14 19:52:48 921

翻译【翻译】【FPN】Feature Pyramid Networks for Object Detection

特征金字塔是识别系统中检测不同尺度目标的一个基本组成部分。但最近的深度学习目标检测器避免了金字塔表示，部分原因是它们是计算和内存密集型的。在本文中，我们利用深度卷积网络固有的多尺度、金字塔式的层次结构，以边际的额外成本构建特征金字塔。我们开发了一个带有横向连接的自上而下的架构，用于在所有尺度上构建高级语义特征图。这种架构被称为特征金字塔网络（FPN），作为一种通用的特征提取器，在一些应用中显示出明显的改进。

2023-01-12 22:07:36 860

翻译【翻译】【SPPNet】Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

我们正在见证视觉界的快速、革命性的变化，主要是由深度卷积神经网络（CNN）[18]和大规模训练数据的可用性[6]引起的。基于深度网络的方法最近在图像分类[16,31,24]、目标检测[12,33,24]、许多其他识别任务[22,27,32,13]，甚至非识别任务方面的技术水平上有了很大提高。然而，在CNN的训练和测试中存在一个技术问题：主流的CNN需要一个固定的输入图像尺寸（例如224×224），这就限制了输入图像的长宽比和比例。

2023-01-11 19:36:16 624

原创【笔记】【Detectron2】关于coco数据集问题

在使用Detectron2的时候，由于自己的数据集转化COCO格式后，数据分类的编号是从0开始的，但是Detectron2里面的编号从1开始，因此在使用的过程中报错，特此记录。

2023-01-03 21:38:26 498

翻译【翻译】DiffusionDet: Diffusion Model for Object Detection

我们提出了DiffusionDet，这是一个新的框架，它将目标检测表述为从噪声框到目标框的去噪扩散过程。在训练阶段，目标框从真实框扩散到随机分布，模型学会逆转这个噪声过程。在推理中，模型以渐进的方式将一组随机生成的框细化为输出结果。对包括MS-COCO和LVIS在内的标准基准的广泛评估表明，与之前成熟的检测器相比，DiffusionDet实现了良好的性能。我们的工作在目标检测方面带来了两个重要发现。首先，随机框虽然与预定义锚点或学习queries有很大不同，但也是有效的候选目标。

2023-01-03 21:35:34 837

翻译【翻译】YOLOX: Exceeding YOLO Series in 2021

在这份报告中，我们对YOLO系列进行了一些有经验的改进，形成了一个新的高性能检测器–YOLOX。我们将YOLO检测器转换为无锚方式，并进行其他先进的检测技术，即解耦头和领先的标签分配策略SimOTA，在大规模的模型范围内获得最先进的结果。对于只有0.91M参数和1.08G FLOPs的YOLONano，我们在COCO上得到25.3%的AP，超过NanoDet 1.8%的AP；对于YOLOv3，工业界最广泛使用的检测器之一，我们在COCO上将其AP提升到47.3%，比目前的最佳实践高出3.0% AP；

2022-11-08 21:40:28 589

翻译【翻译】Coordinate Attention for Efficient Mobile Network Design

最近关于移动网络设计的研究表明，通道注意力（如压缩和激励注意力（SE注意力））对提高模型性能有显著的效果，但它们通常忽略了位置信息，而位置信息对产生空间选择性注意力图很重要。在本文中，我们提出了一种新的移动网络注意力机制，这种注意力机制将位置信息嵌入到通道注意力中，我们称之为 “坐标注意力”。与通过二维全局池化将特征张量转化为单一特征向量的通道注意力不同，坐标注意力将通道注意力分解为两个一维特征编码过程，分别沿两个空间方向汇集特征。

2022-10-20 16:10:16 1059

翻译【翻译】【YOLOv3】YOLOv3: An Incremental Improvement

我们提出了对YOLO的一些更新!我们做了一些设计上的小改动，使它变得更好。我们还训练了这个新的网络，这个网络非常棒。它比上次大了一点，但更准确。不过不用担心，它仍然很快。在320×320320×320320×320的情况下，YOLOv3在28.2mAP的情况下运行22毫秒，与SSD一样准确，但速度快三倍。当我们看旧的.5 IOU mAP检测指标时，YOLOv3相当不错。

2022-09-30 17:44:42 512

翻译【翻译】【YOLOv2】YOLO9000: Better, Faster, Stronger

我们介绍了YOLO9000，一个最先进的实时目标检测系统，可以检测超过9000个物体类别。首先，我们提出了对YOLO检测方法的各种改进，这些改进既是新的，也是来自先前的工作。改进后的模型，YOLOv2，在标准检测任务（如PASCAL VOC和COCO）上是最先进的。使用一种新的、多尺度的训练方法，同一个YOLOv2模型可以在不同的规模下运行，在速度和准确性之间提供了一个简单的权衡。在67FPS时，YOLOv2在VOC 2007上得到76.8mAP。

2022-09-27 15:03:45 315

翻译【翻译】【YOLOv1】You Only Look Once: Unified, Real-Time Object Detection

我们提出了YOLO，一种检测目标的新方法。之前关于目标检测的工作重新利用分类器来进行检测。相反，我们把目标检测看作是一个回归问题，回归到空间上分离的边界框和相关的类别概率。一个单一的神经网络在一次评估中直接从完整的图像中预测边界框和类别概率。由于整个检测管道是一个单一的网络，它可以直接对检测性能进行端到端的优化。我们的统一架构是非常快的。我们的基本YOLO模型以每秒45帧的速度实时处理图像。

2022-09-27 09:44:11 904

翻译【翻译】【R-CNN】Rich feature hierarchies for accurate object detection and semantic segmentation

过去的几年里，在典型的PASCAL VOC数据集上测量的目标检测性能已经趋于平稳。表现最好的方法是复杂的组合系统，通常将多个低层次的图像特征与高层次的背景相结合。在本文中，我们提出了一种简单的、可扩展的检测算法，相对于VOC 2012上的最佳结果，该算法的平均精度（mAP）提高了30%以上，达到了53.3%。我们的方法结合了两个关键的见解：（1）我们可以将大容量的卷积神经网络（CNN）应用于自下而上的region proposals，以便对目标进行定位和分割；

2022-09-15 16:08:56 439

翻译【翻译】【ZFNet】Visualizing and Understanding Convolutional Networks

大型卷积网络模型最近在ImageNet基准测试中表现出令人印象深刻的分类性能，如Krizhevsky等人（AlexNet）[18]。然而，对于它们为何表现如此出色，或如何改进它们，还没有明确的认识。在本文中，我们探讨了这两个问题。我们引入了一种新的可视化技术，使人们能够深入了解中间特征层的功能和分类器的运作。在诊断的作用下，这些可视化技术使我们能够找到在ImageNet分类基准上表现优于Krizhevsky等人的模型架构。我们还进行了一项消融研究，以发现不同模型层的性能贡献。

2022-09-11 15:59:31 376

翻译【翻译】【VGGNet】VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

在这项工作中，我们研究了卷积网络深度对其在大规模图像识别环境中的准确性的影响。我们的主要贡献是使用一个具有非常小的（3×3）卷积滤波器的架构对深度增加的网络进行了彻底的评估，这表明通过将深度推到16-19个权重层可以实现对先有技术配置的显著改善。这些发现是我们提交2014年ImageNet挑战赛的基础，我们的团队分别获得了定位和分类赛道的第一和第二名。我们还表明，我们的表征在其他数据集上有很好的通用性，它们在那里取得了最先进的结果。1模型，以促进进一步的研究。本文的其余部分组织如下。...

2022-07-25 00:23:16 496

翻译【翻译】【AlexNet】ImageNet Classification with Deep Convolutional Neural Networks

我们训练了一个大型的深度卷积神经网络，将ImageNetLSVRC-2010竞赛中的120万张高分辨率图像分类到1000个不同的类别。在测试数据上，我们取得了37.5%和17.0%的Top-1和Top-5错误率，大大优于以前的最先进水平。该神经网络有6000万个参数和65万个神经元，由5个卷积层组成，其中一些后面跟着最大池化层，还有3个全连接层，最后是1000路的softmax。为了使训练更快，我们使用了非饱和神经元和一个非常高效的GPU实现卷积操作。目前的目标识别方法对机器学习方法的使用至关重要。...

2022-07-22 14:52:59 448

翻译【翻译】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

2022-07-04 21:43:16 2451

翻译【翻译】Aggregated Residual Transformations for Deep Neural Networks

Aggregated Residual Transformations for Deep Neural Networks作者：Saining Xie1 Ross Girshick2 Piotr Dollar2 Zhuowen Tu1 Kaiming He21、UC San Diego 2、Facebook AI Research

2022-07-04 19:32:33 712

翻译【翻译】Deep Residual Learning for Image Recognition

Deeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously.

2022-07-04 11:19:15 477

翻译【翻译】Attention Is All You Need

论文地址：https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf项目地址：https://github.com/ tensorflow/tensor2tensor

2022-07-02 11:11:40 28983 2

原创 Barrier问题：Ubuntu为server，win10为client，出现timed out

Ubuntu作为server端，重启Ubuntu以后打开barrier，win10作为client端，出现Timed out的情况，解决方案：打开终端，输入sudo iptables -I INPUT -p tcp --dport 24800 --syn -j ACCEPT 问题解决

2022-05-14 09:15:29 1956 2

翻译【翻译】QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection

QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object DetectionQueryDet：用于加速高分辨率小目标检测的级联稀疏查询论文地址：https://arxiv.org/pdf/2103.09136.pdf项目地址：https://github.com/ ChenhongyiYang/QueryDet-PyTorch文章目录摘要1. 介绍2. 相关工作3. 方法3.1. 重新审视RetinaN

2022-04-10 15:52:24 3062

翻译【翻译】Bridging the Gap Between Anchor-based and Anchor-free Detection

【翻译与个人理解】Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection通过自适应训练样本选择弥合基于锚点和无锚点检测之间的差距文章地址：Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection文章目录摘要1

2022-03-29 10:46:14 635

翻译【翻译】FCOS：Fully Convolutional One-Stage Object Detection

目录摘要1.介绍2.Related Work3.Our Approach3.1. Fully Convolutional One-Stage Object Detector3.2. Multi-level Prediction with FPN for FCOS3.3. Center-ness for FCOS4.Experiments4.1. Ablation Study4.1.1 Multi-level Prediction with FPN4.1.2 With or Without Center-ne

2022-03-29 10:41:15 689

翻译【翻译】Focal Loss for Dense Object Detection(RetinaNet)

## 【翻译】Focal Loss for Dense Object Detection(RetinaNet)目录摘要1、介绍2、相关工作3、Focal Loss3.1 平衡的交叉熵损失3.2. Focal Loss定义3.3. 类不平衡和模型初始化3.4. 类不平衡和二阶段检测器4. RetinaNet检测器4.1. 推理和训练5. 实验5.1. 训练密集检测5.2. 模型架构设计5.3. 与流行模型对比6. 结论论文：Focal Loss for Dense Object Detection摘要

2022-03-27 19:12:04 964 1

原创【笔记】Focal Loss个人理解

【笔记】Focal Loss个人理解，主要是防止自己忘记论文地址：Focal Loss for Dense Object Detection使用项目地址：GitHub 图 1. 我们提出了一种新的损失，我们称之为 Focal Loss，它在标准交叉熵标准中添加了一个因子 (1 - pt)^γ。设置 γ > 0 可减少分类良好的样本（pt > .5）的相对损失，将更多注意力放在难分类的错误示例上。正如我们的实验将证明的那样，所提出的焦点损

2022-03-27 19:11:20 426

原创在 Linux 下将 PNG 和 JPG 批量互转

1、使用 GNU 的parallel命令来转换 PNG 和 JPGGNU 的 parallel 使用户能够从标准输入并行构建和执行 shell 命令。确保您的系统上安装了 GNU Parallel，否则请使用以下适当的命令进行安装：$ sudo apt-get install parallel [在 Debian/Ubuntu 系统中]$ sudo yum install parallel [在 RHEL/CentOS 和 Fedora 系统中]安装好parallel工具后，您就可以运行下面的命

2022-02-12 10:26:48 429

原创【笔记】记录Linux环境下批量压缩单个文件的方法

1、在该文件夹下使用命令：ls |xargs -i tar cvf {}.tar {}2、使用程序改名字for file in os.listdir(file_dir):if file[-3:] == ‘tar’:filename = file.split(’.’, 1)[0]print(filename)src = os.path.join(file_dir, file)dst = os.path.join(file_dir, filename + ‘.tar’)os.rename(src

2022-02-09 15:14:21 1646

原创【nvidia-docker突然不能用】内核更新导致显卡驱动不能用

2022-01-14 10:30:18 876

原创【记录】Pytorch-yolov4训练自己数据集时提示AssertionError: Image Not Found

问题：Pytorch-yolov4训练自己数据集时提示AssertionError: Image Not Found解决方案：在train.txt中需要标注图片的地址，如data/images/000001.jpg，而不是000001.jpg

2022-01-02 18:50:22 2144

翻译【翻译】CSPNet: A New Backbone that can Enhance Learning Capability of CNN

文章目录摘要1.介绍2.相关工作3.方法3.1.跨阶段局部网络3.2.精确融合模型4.实验4.1. 实施细则4.2. 消融实验4.3. ImageNet图像分类4.4. MS COCO目标检测4.5. 分析5.结论论文链接：https://openaccess.thecvf.com/content_CVPRW_2020/papers/w28/Wang_CSPNet_A_New_Backbone_That_Can_Enhance_Learning_Capability_of_CVPRW_2020_paper

2021-12-26 10:46:31 849

翻译【翻译】 Masked Autoencoders Are Scalable Vision Learners

文章目录摘要1.介绍2.相关工作3.方法4.Imagenet实验4.1. 主要属性4.2. 与之前结果的比较4.3. 局部微调5.迁移学习实验6.讨论与结论论文链接：https://arxiv.org/pdf/2111.06377v3.pdf摘要本文表明，掩码自编码器(MAE)是用于计算机视觉的可扩展自监督学习器。我们的MAE方法很简单：我们屏蔽输入图像的随机块并重建丢失的像素。它基于两个核心设计。首先，我们开发了一个非对称编码器-解码器架构，其中一个编码器只对可见的补丁子集进行操作（没有掩码标记），

2021-12-25 18:59:26 717

翻译【翻译】Densely Connected Convolutional Networks

目录摘要1.介绍2.相关工作3.DenseNets4.实验4.1.数据集4.2.训练4.3.CIFAR and SVHN的分类结果4.4.ImageNet的分类结果5.讨论6.结论论文：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8099726摘要最近的工作表明，如果卷积网络在靠近输入的层和靠近输出的层之间包含更短的连接，则它们可以更深入、更准确、更有效地进行训练。在本文中，我们接受了这一观察并介绍了密集卷积网络(Den

2021-12-17 19:08:33 347

翻译【翻译】An Energy and GPU-Computation Efficient Backbone Network for Real-Time Object Detection

论文链接：https://arxiv.org/pdf/1904.09730.pdf目录摘要1.介绍2. 高效网络设计的因素2.1. 内存访问成本2.2. GPU-计算效率3. 提出的方法3.1. 重新思考密集连接3.2. 一次性聚合3.3. VoVNet的配置4. 实验4.1. 实验装置4.2. DSOD4.3. RefineDet4.4. Mask R-CNN from scratch5. 结论摘要由于DenseNet通过用密集连接聚合它们来保存具有不同感受野的中间特征，因此它在对象检测任务上表现出

2021-12-15 21:29:02 882

翻译【翻译】Batch Normalization: Accelerating Deep Network Trainingby Reducing Internal Covariate Shift

Batch Normalization: Accelerating Deep Network Trainingby Reducing Internal Covariate ShiftSergey Ioffe，Christian Szegedy文章目录Abstract1 Introduction2 Towards Reducing Internal Covariate Shift3 Normalization viamini-batchStatistics3.1 Training and Inferenc

2021-12-12 10:53:47 360

原创 YOLO系列结构图

YOLOv4结构图

2021-12-04 16:29:11 4234

原创 Faster RCNN pytroch1.0 训练时：Warning: NaN or Inf found in input tensor.

文章目录问题原因解决问题在Pascal voc和coco上训练Faster RCNN都正常在训练自己的数据集时（Pascal voc格式）训练Faster R-CNN pytorch1.0时出现Warning: NaN or Inf found in input tensor.原因可能是learning rate太大，调小learning rate。最有效的方法是learning rate设为0，看看是不是还有nan的问题。因为自己的数据是从0开始的，但是源码中-1，如果这时候annota

2021-11-28 10:19:11 3621

原创记录使用AlexeyAB大神darknet下的ap计算（Ubuntu）

记录使用AlexeyAB大神darknet下的ap计算（Ubuntu）使用reval_voc_py3.py计算AP值1、文件位置2、运行darknet中的detector valid指令，生成对测试集的检测结果。3、所使用的命令及参数使用reval_voc_py3.py计算AP值1、文件位置两处位置上有reval_voc_py3.py和voc_eval_py3.py（也有python版，分别是reval_voc.py和voc_eval.py）（1）、./darknet/scripts（所使用的）（

2021-05-15 15:06:43 473

jokerwu192的博客