Wastoon-CSDN博客

原创 YoloV1-单阶段目标检测模型

YoloV11. 动机第一篇one stage的文章，将分类任务和回归任务结合在一起做，不需要anchor，输入图片后直接得到图片中物体的bbox以及对应的class。2.方法概要输入：图片输出：(S×S)∗2(S\times S)*2(S×S)∗2个bbox的（x,y,w,h），以及(S×S)∗2∗20(S\times S)*2*20(S×S)∗2∗20的类别向量（Pascal VOC dataset），还有(S×S)∗2(S\times S)*2(S×S)∗2的表示每个bbox中有没有

2021-09-01 09:41:13 303

原创 SPPNet-特征对齐模块

SPPNet动机双阶段模型由RPN给出ｒｏｉ之后，要接pooling操作和全连接层进行分类和回归任务，因此需要把FC层前面的输入的维度定下来，但是ROI大小往往不一致，因此需要进行特殊的size操作，但一般的size问题颇多，无外乎crop和warp，失真和信息丢失比较严重，因此有了SPP金字塔。方法概要上面这些不同grid数量的pooling层就是SPP内部的特殊处理，已知featuremap的输出维度的情况下，要计算当前的输入feature被切分为固定数量patch时每个patch的size

2021-09-01 09:40:49 904

原创 A Scalable Approach to Control Diverse Behaviors-动作生成算法

A Scalable Approach to Control Diverse Behaviors for Physically Simulated Characters来源: SigGraph2021研究方向: 动作生成链接: https://research.fb.com/publications/a-scalable-approach-to-control-diverse-behaviors-for-physically-simulated-characters/文章动机这篇文章提出了一种可以

2021-09-01 09:35:40 458

原创 CARL Controllable Agent with Reinforcement Learning-动作生成算法

CARL: Controllable Agent with Reinforcement Learning for Quadruped Locomotion来源: SigGraph2021研究方向: 动作生成链接: https://arxiv.org/abs/2005.03288文章动机动态环境中的动作合成是一个长期存在的问题。在复杂环境中使用动作数据来学习动作合成往往会面临标注难得到的问题，然而，在这种情况下，使用基于物理模拟器的方案就比较有效。因此CARL就在物理模拟器中，借助强化学习进行了动画

2021-09-01 09:35:29 246

原创 Character Controllers Using Motion VAEs-动作生成算法

Character Controllers Using Motion VAEs来源: SigGraph2021研究方向: 动作生成链接: https://arxiv.org/abs/2103.14274文章动机这篇文章整体的风格还是MANN，PFNN的那一套，是一个基于条件自编码器的的自回归模型。思路自然就是借助自编码器的encoder得到分布的均值和方差，然后基于采样得到重建分布的隐编码z，然后把隐编码z作为控制条件，去驱动t-1帧的人物动作向第t帧变化。值得注意的是，自编码器的输入是t-1帧的

2021-09-01 09:35:18 790

原创 Learned Motion Matching-动作生成算法

Learned Motion Matching来源: SigGraph2021研究方向: 动作生成链接: https://dl.acm.org/doi/pdf/10.1145/3386569.3392440Motion Matching如今已经是3A游戏处理locomotion的主流方法了。文章动机一个传统的motion matching算法可能分为一下几步。用户输入控制信号后，将其投影到特征空间，然后在这个特征空间中找到与其最相近的特征x，然后进一步找到特征x对应pose，将pose输出，就

2021-09-01 09:35:08 2148 1

原创 AMP Adversarial Motion Priors for Stylized Physics-动作生成算法

AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control来源: SigGraph2021研究方向: 动作生成链接: https://arxiv.org/abs/2104.02180文章动机动作生成的总体方案可以分为kinematic methods和physics-based的方法。kinematic methods基本上不会使用显式的运动方程与生成动作，相反会借助大量的motion clip去进行学

2021-09-01 09:34:57 1053 1

原创 Discovering Diverse Athletic Jumping Strategies-动作生成算法

Discovering Diverse Athletic Jumping Strategies来源: SigGraph2021研究方向: 动作生成链接: https://arpspoof.github.io/project/jump/jump.html我觉得这篇文章的一个核心在于使用了一种特殊的策略检索方法，即Bayesian Diversity Search，因为Bayesian优化过程具有sample efficiency，因此使用这个探索策略可以比较好的找到完成任务的最优策略。Bayesian

2021-09-01 09:34:45 160

原创 DeepMimic-动作生成算法

DeepMimic备注: https://blog.csdn.net/weixin_41888257/article/details/104513891来源: SigGraph2018研究方向: 动作生成这篇论文提出了：通过结合强化学习，利用motion capture数据, 使动画角色可以模仿数据当中的运动（包括一些高动态的运动，比如后空翻，还有一些跟接触类的运动，比如爬行）的同时，还可以实现用户定义的一些任务。同时，该论文还实现了多种技能的，包括：1）Multi-Clip reward: 使角色

2021-09-01 09:34:30 804

原创 FPN-多尺度特征聚合

FPN动机FPN网络提出就是为了缓解目标检测任务中scale多样性时，各个scale的物体该怎样更好的检出的问题。方法概要看上图中的（ｄ）就可以看出FPN的基本运行原理了，前向过程通过下采样降低分辨率，然后再进行上采样，过程中融合来自上游高分辨率的feature，得到增强后的featuremap，这样一个优点在于低分辨率的featuremap更多的语义信息可以被呈递到高分辨率，比较浅层的featuremap中，让size较大的featuremap回归预测小目标物体时有更多的feature可以使用

2021-09-01 09:34:09 1828

原创 CascadeRCNN-双阶段检测模型

CascadeRCNN动机双阶段训练过程中的RPN在给出proposal时候，需要给定一个IOU阈值，来筛选正负样本进行RPN的学习，然后训练的RPN会基于这些样本进行学习，给出图中存在物体的ROI区域的proposal，然后proposal被RCNN再次细调回归和分类，得到最后的结果。然后测试时，得到了一堆检出的bboxes，需要进行NMS处理，这时候又要设置IOU阈值来进行滤除。如果训练和测试使得IOU阈值用的差别太大，就会让最后的检测效果于训练过程不match。但要是一味的拔高IOU阈值，又会让R

2021-08-30 11:13:53 614 1

原创 maskRCNN-双阶段检测模型

maskRCNN动机FasterRCNN的RPN网络给出来ROI了，你光用ROI回归bbox心不痛吗？让ROI去回归mask不是顺手的事？只不过提出了一个roiAlign比较新。方案概要保持faster RCNN其余都不变，让RCNN那块的回归头加一条新的任务，做一个mask的回归任务，每个ROI都会给出自己回归的一个mask。相当于加了一条新任务。ROIAlign实施【对小目标很关键】ROIAlign的提出是为了改善ROIpooling操作的缺点[量化误差]。因为ROIpooli

2021-08-30 11:12:28 282

原创 RFCN-双阶段检测模型

RFCN动机FasterRCNN第二阶段中的RCNN细调过程需要对ROI的feature先pooling成相同的size，然后再进行批处理，送到FC层中进行roi-wise的分类和回归任务，RFCN认为双阶段的提速可以在这里做文章，希望可以去掉FC层，用全卷积FCN来做后面的分类回归任务。但是带来的一个问题是卷积操作有平移不变性，适合用在分类任务中，而回归中用到的bbox是希望平移可变性的，因此使用FCN就会带来分类任务希望平移不变性和回归任务希望的平移可变性之间的矛盾。RFCN就是要解决这个矛盾。方

2021-08-30 11:11:06 490 1

原创 RetinaNet-单阶段目标检测模型

RetinaNet动机one stage的方法思路都得密集采样，然后基于base进行回归，那这个过程中采样出的fake anchor的数量中，正负样本是极端不平衡的，除了像SSD中那样在计算loss时通过score筛选下参与学习的bbox以保持正负样本比的方案，使用有权重的损失函数也会比较好的解决这个问题，这就是retina net中提出的Focal Loss.方法概要目的很简单，就是想让数量少的正样本anchor分量重一点，让数量极多的负样本分量轻一点。先是分类时用到的交叉熵【这里p为预测

2021-08-30 11:09:10 383

原创 SSD-单阶段目标检测模型

SSD动机继YOLOv1之后的one stage检测方法，想要解决的是小目标在Yolo单阶段中召回不足的问题，然后就有了SSD。方法概要SSD使用了多尺度的feature进行最后的预测任务。具体来说，在浅层的，分辨率交高的featuremap和越往后越深的layer的featuremap中同时进行回归预测。他的预测也是anchor-based的，在每个featuremap中针对每个point产生ratio和scale不同的anchor，然后通过和GT物体计算IOU，通过IOU阈值为anchor分

2021-08-30 11:06:02 607

原创 YOLOX-单阶段目标检测模型

YOLOX来逐个看看YOLOX堆了哪些trick：1, 数据增强，使用了Mosaic 和 MixUp。Mosaic在YOLOv4及v5就用过了。MixUp也是比较常用的方法。2，Anchor-free。样本不再是anchor而是point(或者说grid)。3，Multi positives，将gt中心区域的点定义为正样本,其实就是FCOS中的center sampling。4，SimOTA，来源于自家的工作OTA。这里改了个简化版本叫SimOTA。具体是干什么呢？3之后一个gt匹配了n个正样本，

2021-08-30 11:04:14 580

原创 Yolo v4-单阶段目标检测模型

Yolo v41. 动机YOLOv4对深度学习中一些常用Tricks进行了大量的测试，最终选择了这些有用的Tricks：WRC、CSP、CmBN、SAT、 Mish activation、Mosaic data augmentation、CmBN、DropBlock regularization 和 CIoU loss。【全都是不知道的trick】2.方法概要输入端：这里指的创新主要是训练时对输入端的改进，主要包括Mosaic数据增强、cmBN、SAT自对抗训练**BackBone主干网络：**

2021-08-30 11:03:09 636

原创 YoloV3

YoloV31. 动机作者 Redmon 又在 YOLOv2 的基础上做了一些改进。特征提取部分采用darknet-53网络结构代替原来的darknet-19，利用特征金字塔网络结构实现了多尺度检测，分类方法使用逻辑回归代替了softmax，在兼顾实时性的同时保证了目标检测的准确性。2.方法概要主要动结构，Dark53替代Dark19加特征金字塔，来处理小目标。下图是网络结构图，分别从13X13, 26x26, 52x52的featurema的网格中来预测最终的结果，每个grid中给3个anch

2021-08-30 10:57:53 74

原创单阶段目标检测-YoloV2

YoloV21. 动机YOLOv2 和 YOLO9000重点解决YOLOv1召回率和定位精度方面的不足。YOLOv2 是一个先进的目标检测算法，比其它的检测器检测速度更快。除此之外，该网络可以适应多种尺寸的图片输入，并且能在检测精度和速度之间进行很好的权衡。相比于YOLOv1是利用全连接层直接预测Bounding Box的坐标，YOLOv2借鉴了Faster R-CNN的思想，引入Anchor机制。利用K-means聚类的方法在训练集中聚类计算出更好的Anchor模板，大大提高了算法的召回率。同时结合图

2021-08-30 10:56:00 450

原创单阶段目标检测器 -YoloV1

YoloV1-单阶段目标检测器1. 动机第一篇one stage的文章，将分类任务和回归任务结合在一起做，不需要anchor，输入图片后直接得到图片中物体的bbox以及对应的class。2.方法概要输入：图片输出：(S×S)∗2(S\times S)*2(S×S)∗2个bbox的（x,y,w,h），以及(S×S)∗2∗20(S\times S)*2*20(S×S)∗2∗20的类别向量（Pascal VOC dataset），还有(S×S)∗2(S\times S)*2(S×S)∗2的表示每个bb

2021-08-30 10:52:56 202

原创卷积核的参数量和计算量

卷积核的参数量和计算量1. 参数量计算1.1 普通卷积输入特征图尺寸CxHxW输出特征图尺寸OxHxW卷积核尺寸kxkxC（O个kxkxC的卷积）权重kxkxCxO偏置OBN层2xO总的参数量kxkxCxO+3xO1.2 depth wise 卷积输入特征图尺寸CxHxW输出特征图尺寸OxHxW卷积核尺寸kxkx1（C个kxkx1的卷积）权重kxkxC偏置CBN层2xC总的

2021-03-31 11:59:09 4305 2

原创计算机视觉-语义分割任务常用指标

计算机视觉-语义分割任务常用指标呐，这篇笔记记录了语义分割任务中十分常用的指标（包括PA，MPA，mIOU）的计算方式。整体来看，都是像素数目的比值。首先我们需要先定义语义分割任务的类别K+1K+1K+1（包含K个目标类和1个背景类），PiiP_{ii}Pii代表本来属于第iii类，被预测为第iii类的像素点总数，PijP_{ij}Pij表示本来属于第iii类，却被预测成第jjj类的像素点总数。0. PA（Pixel Accuracy）PA是什么？PA是指分类预测结果中，分类正确的像素点数

2021-03-05 14:38:57 837

原创计算机视觉-目标检测任务常用评价指标

计算机视觉-目标检测任务常用评价指标呐，这边笔记写的是目标检测文章中典型的评测指标mAP（精度）和FPS（速度），以及mAP的具体PyTorch版本实现。Enjoy---------------------------????1. mAP（mean average precision）什么是mAP？mAP就是平均精确度均值，对于mAP而言，他是针对一整个数据集中存在的所有类别的目标而言的；而AP仅针对数据集中的某一个类别而言的，mAP就是对于数据集中各个类别下的P求均值。具体的，如果我们要对C

2021-03-04 20:18:53 1041 1

原创计算机视觉-IOU怎么计算？

计算机视觉-IOU怎么计算？呐，IOU的应用及快速实现就在下面了，在实现时特别要注意两个bbox相离的情况的处理。0. IOU的应用有哪些？IOU（Intersection over Union）是目标检测任务中非常常见的，IOU在目标检测中应用有：进行NMS（非极大值抑制）：当在图像中预测有多个proposals、pred bboxes时，因为预测的结果中可能存在高度冗余（即一个目标可能会被预测出多个目标检测框），因此需要过滤掉一些彼此间高度重合的结果。具体操作流程是先对各个bbox的score

2021-03-04 17:39:13 791 1

原创计算机视觉-分类任务常用评价指标

计算机视觉-分类任务常用评价指标呐，下面我们先来看看分类任务有哪些可以使用的指标。作为一个Summary，我在下面写到的有准确率（Accuracy）,精确率（Precision）,召回率（Recall），P-R曲线（Precision-Recall Curve），F1-score，ROC曲线，AUC，混淆矩阵。0. 样本定义在开始之前，我们首先来说一说最后参与到指标计算中的样本会被分为哪几类。真阳性（True Positive， TP）:True表示分类器的行为是正确的，Positive表示分类器

2021-03-04 16:10:31 1436 1

qq_36412570的博客