2020年12月_zzl_1998

原创【目标检测】OneNet: Towards End-to-End One-Stage Object Detection

label assignment是指，在训练过程中如何将某个prediction指定给某个GT，用于计算损失，训练网络。对于上一篇文章，他们首先用one-to-one label assignment替换了one-to-many label assignment，并且不用hand-craft label assignment，而是提出综合考虑位置、类别置信度和IoU三个指标计算得分，取得分最高的POTO。在这基础上，提出3DMF，提高局部卷积的差异，再进一步提高anchor之间的差异。最后，添加一个..

2020-12-17 17:33:22 789 2

原创【目标检测】End-to-End Object Detection with Fully Convolutional Network

AbstractNMS妨碍了端到端训练。本文发现，如果想去除NMS，一个合适的label assignment对模型十分重要。对于fully convolutional detectors，本文提出Prediction-aware One-To-One (POTO) label assignment，用于分类，以此实现端到端检测，取得了和NMS相近的表现。并且，提出3D Max Filtering（3DMF），使用多尺度特征，提高局部区域卷积的可分辨性。再COCO和CrowdHuma...

2020-12-16 23:20:46 2917 1

原创【目标检测】Adaptive Training Sample Selection (ATSS)

Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection

2020-12-14 13:22:27 417 1

原创【目标检测】FCOS: Fully Convolutional One-Stage Object Detection

Abstract & Introduction受语义分割模型Fully Convolutional Network启发，提出一种per-pixel prediciton方式的目标检测。anchor-based方法，存在下列问题：（1）训练过程中，需要计算每个anchor和GT的IoU，非常浪费计算资源（2）需要面向任务设计anchor，anchor的sizes，aspect ratios和numbers会极大影响最后的检测结果[15,24]。对于RetinaNet，作者在调整an..

2020-12-13 22:07:24 967

原创【Transformer 02】End-to-End Object Detection with Transformers

Abstract本文提出一种新方法，将目标检测视作集合预测问题，并将它流程化，去除人工设计部分，例如NMS和anchor generation（这些会将我们对任务的先验知识编码进模型）。新框架的主体部分是DEtection TRansformer，这种基于集合的全局损失，会通过二部图匹配和transformer的encoder-decoder框架，产生唯一的预测。给定一个固定学习好的object queries小集合，DETR推理目标和全局图片之间的上下文关系，并行的输出最后的预测集合。该模型非常简

2020-12-06 20:45:26 467

原创【Transformer 01】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

AbstractTransformer框架是自然语言处理的常用结构，但它在计算机视觉上的应用较少。在视觉中，注意力通过和CNN一起使用，或在保持整体结构不变的情况下，替换CNN的某个部分。本文展示了依赖CNN是不必须的，并且在分类任务中，直接对一系列图片块使用transformer是可行的。当在大量数据上预训练，然后转移到多个大中型或小型图像识别benchmarks（ImageNet, CIFAR-100, VTAB等）。与sota卷积网络相比，Vision Transformer (ViT)获得更

2020-12-06 11:33:04 792

原创【GAN 04】可解释性GAN

本文是对http://www.seeprettyface.com/research_notes.html的学习笔记不想让GANs随机生成图片，希望通过控制输入的参数去生成特定的图片。例如：在手写数字图片的生成中，希望通过输入，控制数字，高度以及形状等。但为输入的某一维度，对输出的影响是不清楚的。1. InfoGAN：可解释的GAN人为要求输入向量对输出影响要明确。把输入的向量z拆分为子向量c和子向量z'，我们希望输出包含c的信息，即我们可以通过一个classifier提取出c的信息，..

2020-12-04 16:42:01 990

原创【GAN 03】auto-encoder在GAN中的应用

本文是对http://www.seeprettyface.com/research_notes.html的学习笔记1. minimize reconstruction error，可以保证原图信息的保留。2. Face Attribution一致：（1）CoGAN：encoder x和encoder y的最后几层共享参数。（2）Guillaume Lample：判别face attribution属于哪个域。（3）ComboGAN：将两条回路拼在一起，通过clcle consistency，使.

2020-12-04 12:21:57 1457

原创【GAN 02】GAN在风格迁移上的应用

本文是对http://www.seeprettyface.com/research_notes.html的学习笔记1. CycleGAN：在传统风格迁移算法中：认为backbone的浅层包含纹理、颜色信息；深层包含结构信息，并用Gram描述style feature相似性，二范数描述content feature相似性。还可以建立类似auto-encoder的框架，用两个生成器代替encoder和decoder，其中第一个生成器用于将图片做风格迁移，第二个生成器用于将上一步输出转换为原始图片，保证.

2020-12-04 11:44:52 5157

原创【GAN 01】初识GAN

本文是对http://www.seeprettyface.com/research_notes.html的学习笔记评价指标：Inception Score评价图片质量。真实图片是233分，越高越好；FID反应生成图片的多样性，越低越好。一、初识GANs生成器旨在学习已知分布到未知分布的映射关系，拟合真实数据的分布。同时可证最大似然等价于最小化两分布的KL散度。判别器旨判别图片归属于生成或真实数据。同时可证最大化判别器等价于求两分布的JS散度。因此，求解的生成器可转换为：具..

2020-12-03 18:55:17 510

qq_40731332的博客