自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 目标检测模型预训练——自监督对比学习

将 proposal 作为 global patch,同时将 proposal 切分为不同的 local patch,构建了 local-local 对比损失和 global-local 对比损失,完成了对比学习与目标检测的结合。提出了新的代理任务,即随机的从原图中裁下一个 patch,将这个 patch 作为 query 输入到 DETR 的 decoder 中,希望模型可以在原图中找到这个 patch 的位置并完成分类。用 EdgeBoxes。

2023-04-19 14:40:46 968 1

原创 Diffusion Model

DDPM

2022-07-15 17:29:55 2777

原创 图像生成——总结

评价指标Inception Score(IS)计算这个 score 需要用到 Inception Net-V3,评价一个生成模型,需要考虑两个方面的性能:是否清晰。 是否多样。生成的图片不够清晰,说明生成模型表现欠佳。而如果生成的图片不够多样的话,只能生成有限的几种图片,即陷入了 modecollapse,也说明模型表现欠佳,如下图只学到了其中的一个分布。IS 的评价方法如下:把生成的图片 x 输入 Inception V3 中,将输出1000维的向量 y,向量的每个维度的值对.

2022-05-17 21:29:19 8578

原创 神经网络——Tensor、计算图、训练方法

Tensor、Variable 和 Parameter经过 Pytorch 0.4.0 的更新后,前两个都是一个 torch.Tensor 对象,可以理解为两者等价;后者是 Parameter 对象。Tensor 包含如下属性:data,该 tensor 的值。 required_grad,该 tensor 是否连接在计算图(computational graph)上。 grad,如果 required_grad 是 True,则这个属性存储了反向传播时该 tensor 积累的梯度(这个梯度

2022-04-29 23:00:33 3329

原创 Python中的内置函数与lambda表达式

Lambda表达式冒号前是形参,冒号后是返回值,常与内置函数结合使用。lambda argument_list:expressionargument_list 是参数列表,他的结构与 Python 中函数的参数列表是一样的。a, ba, b=1, *argsexpression 是关于参数的表达式,表达式中出现的参数需要在 argument_list 中有定义,并且是单行的。通常定义完 lambda 表达式需要赋值给一个表达式,比如:square = lambda

2022-04-21 13:37:36 215

原创 全都是查找

思路二分查找细节十分繁琐,这里参考labuladong的文章,将二分查找分为三种情况,分别为查找某一个数、查找左边界、查找有边界。框架如下:查找某一个数写法一这时的搜索区间是 [left, right],左闭右闭,跳出while循环的可能情况有 [left, left-1] 和 [right+1, right]。这时已经没有交集,直接返回-1。def binarySearch(nums, target): left, right = 0, len(nums) - 1

2022-04-15 21:08:09 485

原创 度量学习——总结

传统方法User guide: contents — metric-learn 0.6.2 documentation深度学习基于深度学习的度量学习方法大都由两个部分组成:特征提取模块和距离度量模块。距离度量模块的任务是使同一类样本间的距离更靠近,而不同类样本间的距离更远离。这一模块更多的实现方法是改进损失函数,对模型的学习更加“赏罚分明”。基于正负样本对的方法也可以称为基于对比学习的方法,抽出正负样本对学习。对比学习的方法现在正广泛的应用于学习更好的特征提取模块,即用自监督学习的方法来

2022-03-12 16:31:18 9123 6

原创 神经网络——常见的回归损失函数

回归损失函数三个损失函数的图像公式如上,分别对其求导:公式中的 x 都是 bounding box 四个坐标点与 ground truth 四个坐标点的插值,四个点分别计算 Loss 再相加,得到这个 bbox 的回归损失。L1 Loss 在训练后期当 x 值较小时,梯度依然固定不变,会导致模型在最优解附近振荡。L2 Loss 在训练初期 x 较大时,梯度也过大,导致训练不稳定。smooth L1 Loss 避免了上述两个 L

2022-02-17 03:14:10 3074

原创 神经网络——IoU & NMS & 正负样本均衡

IoUIoU(Intersection over Union),又称重叠度/交并比。即上图中的 intersection/Union,代码实现:# one pre, one gtdef IoU(pred_box, gt_box): ixmin = max(pred_box[0], gt_box[0]) iymin = max(pred_box[1], gt_box[1]) ixmax = min(pred_box[2], gt_box[2]) iymax

2021-12-29 20:48:55 1452

原创 论文阅读《Aligning Pretraining for Detection via Object-Level Contrastive Learning(SoCo)》

Background & Motivation按文章中的说法,在此之前的 image-level 对比学习方法没有具体到下游任务上,比如:分类、检测和分割等,往往作为预训练模型提供给下游任务。在“预训练-迁移”范式下,不论是有监督、无监督还是怎么样的学习方法,预训练后的模型作为迁移的起点,不只是基于特征重用这一出发点。当源域和目标域的特征差异较大时,预训练的模型更多是为目标域的任务提供一个合适的初始点(初始化),使训练更加平稳。这种做法是次优的(sub-optimal),不如直接与下游任务对

2021-12-21 21:38:06 1538 2

原创 论文阅读《Beyond Sharing Weights for Deep Domain Adaptation》

Background & Motivation这篇文章发在 PAMI 2019 版本的 Related Work 可以作为跨域学习2019之前的综述来看,写的十分详细。Classical Domain Adaptation常用做法是用 target 数据调整 source 上训练好的分类器,比如 SVM、决策树。另一种做法是学习 source 和 target 之间的度量,也可以理解为 source 和 target 之间线性或者非线性的变换。即找到两个域在特征空间内的表征,用这些变换来“对齐”他

2021-12-16 21:22:32 1079

原创 论文阅读《Meta-FDMixup:Cross-Domain Few-Shot Learning Guided by Labeled Target Data》

Background & Motivation之前看的小样本论文大部分是目标域和源域属于同一个域,比如 COCO 数据集里的小样本设定:60类为 Base,20类为 Novel。Base 和 Novel 都属于同一个数据集,同一个域内。而对于底片缺陷检测(类似于下图中的医学射线图像),与传统数据集相比我主观上认为不属于同一个域,因此就涉及到了域适应 Domain Adaptation、域泛化 Domain Generation 和跨域 Cross Domain。数据集间是否属于同一个域目前还没有看到有客

2021-12-14 18:24:39 2893 2

原创 论文阅读《Deep Layer Aggregation(DLA)》

Background & MotivationDeep Layer Aggregation(DLA)layer、block 和 stage 之间的关系:Layers are grouped into blocks, which are then grouped into stages by their feature resolution.Fig.1上图中的(b)与FPN 的做法相同但它不是 FPN,而是作为 backbone,也就是说(b)中的结构可以跟 FPN 结合起.

2021-11-23 21:59:07 2064 1

原创 论文阅读《Momentum Contrast for Unsupervised Visual Representation Learning(MoCo)》

Background & Motivation在 NLP 领域,无监督的学习方法已经取得了很大的成功,而在 CV 领域监督学习预训练的方法依然占主导地位。文中分析是因为语言任务是离散的信号空间(words,sub-word units),而视觉任务中原始信号是离散、高维并且不像 words 那样是为人类交流构造的。这是一篇用无监督的方法实现对比学习(contrastive learning)的文章, 此前的方法都是将对比学习看作是查阅字典的操作(dictionary look-up)。如下图:

2021-11-18 21:39:33 2775 1

原创 论文阅读《Context-Transformer:Tackling Object Confusion for Few-Shot Detection》

Background & Motivation当数据量不足的时候,很主流的一个做法就是迁移学习。当迁移至目标域后,最常见的一个错误就是误分类。因为在源域的 box regressor 本来就是类别无关的,而 classification 是类别相关,由于数据量太少训练难以收敛,所以就导致了误分类。而且此前的小样本学习方法很多都没有考虑到误分类这个问题。Modeling context,上下文建模也称作背景建模,一直是目标检测的一个挑战。The main reason is that, obje

2021-11-09 10:58:36 568

原创 论文阅读《Incremental Few-Shot Object Detection》

Background & Motivation目标检测领域一阶段和二阶段的网络都不是增量学习的模式,本文的方法是基于一阶段的 CentreNet。小样本分类任务的方法各式各样,其思想应该是小样本检测任务的创新源泉。文章提出了一个增量学习的范式(Incremental Few-Shot Detection,iFSD):使用 Base 数据完成对模型的预训练。 这个模型部署到设备上后,设备应该能随时接收数据量很少的 Novel 数据完成增量训练,并不影响其在 Base 数据上的精度。 这个增量训练不

2021-10-19 18:44:21 969 1

原创 论文阅读《Boosting Few-Shot Learning With Adaptive Margin Loss》

Background & Motivation各种度量学习方法的不同之处就在于特征的提取方法和嵌入空间内距离的度量方法不同。交叉熵损失常用来监督模型提取区别度高的视觉特征,在此之前还有人提出各种不同的 margin loss。最简单的 Naive Additive Margin Loss:这个方法是假设所有的类都应该平等的远离彼此,因此增加了一个固定的常数 m。但是对相似的类别并不能很好地区分,尤其是在小样本的设定下。除此之外还有 angular margin 和 cosine ma

2021-10-13 10:23:52 703

原创 论文阅读《Few-Shot Object Detection via Classification Refinement and Distractor Retreatment》

Background & Motivation文章首先对小样本目标检测存在的问题进行了分析,指出 TFA(Two-stage Fine-tune Approach)影响最后检测结果的有一部分原因是 IoU awareness 和category discriminability。前者在文中的描述如下,是指将一些 IoU 得分低的检测框也分为 positive,可以理解为误定位。Models that are weak in the first aspect often predict poorl.

2021-10-09 11:02:04 1229 4

原创 论文阅读《Few-Shot Object Detection and Viewpoint Estimation for Objects in the Wild》

Background & MotivationViewpoint Estimation,视点估计。用点云数据在 3D 场景理解/重建、增强现实以及机器人领域中,主要关注 Object Detection。不论是目标检测还是视点估计,小样本的方法是非常有应用前景但是under-explored。传统的方法都需要大量的带标注数据,在 Novel 类上泛化能力很差。本文的方法基于 Faster Rcnn,将 query 和 support 的 RoI 输入一个特征聚合模块,之后再输入到分类头中。.

2021-09-29 21:59:36 1072

原创 论文阅读《Focal Loss for Dense Object Detection》

Background & Motivation目标检测最开始采用滑窗的方法,深度学习兴起后二阶段检测模型占了主导地位,一阶段模型一直在追赶。文章认为一阶段检测模型精度不如二阶段检测模型的一个重要原因是前景/背景的比例失调,二阶段检测模型中使用RPN、Selective Search、OHEM 等方法来应对这一问题,而一阶段的模型使用这些办法效果不是很好。前景/背景比例的失调会导致:大多数的训练徘徊在easy negative/well-classified example上,使训练十分低效。...

2021-09-25 11:57:34 312

原创 论文阅读《Accurate Few-shot Object Detection with Support-Query Mutual Guidance and Hybrid Loss》

Background & Motivation文中将 Few-shot 学习分为两类:metric-based 和optimization-based,后者是元学习的方法。将 Few-shot 目标检测分为:finetuning-based 和 finetuning-free。然而以上这些方法都存在几个问题:support 中的信息没有指导 query 中 bounding box 的产生,support 和 query 之间缺少交互,没有充分利用 support 内的信息。 k-shot .

2021-09-23 10:24:26 1669 2

原创 论文阅读《Dense Relation Distillation with Context-aware Aggregation for Few-Shot Object Detection》

Background & Motivation文中认为在此之前的 Few-shot 目标检测方法中的两类存在着不足:采用元学习的训练策略,同时 reweight 每一类的表征。fine-tune 的方法,用 Novel 类数据微调模型的 Head 或者采用辅助分支来 refine 模型的 RPN 和 Head。首先,support set 和 query set 之间的关系很难完全的表征出来,很多此前的方法采用的 global pooling 的方法会导致局部细节信息的丢失,模型

2021-09-18 20:46:30 2072

原创 论文阅读《Training Region-based Object Detectors with Online Hard Example Mining》

Background & Motivationhard negative mining(HNM,之前称作 bootstrapping)早在1990年就被提出,用在人脸检测网络中。Their key idea was to gradually grow, or bootstrap, the set of background examples by selecting those examples for which the detector triggers a false alarm. This

2021-09-15 17:15:27 247

原创 论文阅读《R-FCN: Object Detection via Region-based Fully Convolutional Networks》

Background & Motivation最早的分类模型 AlexNet 和 VGG Net,前半部分是卷积自网络,后半部分是一些全连接层,前后部分被一个空间池化层隔开。自然而然传统的二阶段目标检测网络可以看作被 RoI pooling 分成两个子网络,前半部分是参数共享的全卷积网络,后半部分是基于 RoI 区域的不共享参数的 RoI-wise subnetwork(Head)。但是检测精度十分低,与分类网络优秀的性能并不能匹配。文中分析是因为分类任务中物体有平移不变性,而在检测任务中的回归任务必须

2021-09-13 21:21:44 325

原创 论文阅读《An Analysis of Scale Invariance in Object Detection – SNIP》

Background & Motivation分类和检测任务精度差别大,有一个重要原因是检测小物体充满了挑战。而 MS COCO 数据集中出现了极端的尺度不平衡,小目标(目标尺寸/图像尺寸<=0.024)只占到了10%,中等目标(0.024<目标尺寸/图像尺寸<=0.106)占到了40%,大目标(0.106<目标尺寸/图像尺寸<=0.472)占到了40%,特大目标(目标尺寸/图像尺寸>0.472)占了剩下的10%。这样的话,模型需要应对的尺度变化过大,学到尺度不变特征

2021-09-13 14:49:19 284

原创 论文阅读《Dual-Awareness Attention for Few-Shot Object Detection》

Background & Motivation小样本分类模型分为两类:optimization-based 的元学习方法和metric-based 的度量学习方法。而小样本检测模型大多使用迁移学习和度量学习的方法来实现跨域学习,大多都采用平均特征来作为类的表征与模型输出的 Query 表征进行 concatenation 或 element-wise product 等来计算相似度。Motivation 是现有的小样本检测模型在 base 类数据上精度普遍降低,此前直接将小样本分类模型的思想用在检.

2021-09-09 21:35:01 1068

原创 论文阅读《Multi-Scale Positive Sample Refinement for Few-Shot Object Detection》

Background & Motivation小样本图像分类的方法可以用到检测网络特定的模块中,比如 head。小样本检测中由于数据量有限,其测试集尺度空间可能与训练集、预训练模型的尺度空间分布有很大不同。而半监督学习和弱监督学习虽然减轻了人工标注的负担,由于需要大量的训练数据,因此不适合小样本学习任务。Motivation 是为了解决小样本检测中的多尺度问题,即如何应对小目标。由于 novel 类中的样本有限,因此其尺度空间很有可能与 base 类的尺度空间有所不同,如下图。而在通常的目标

2021-09-01 20:19:11 705

原创 论文阅读《Partial Is Better Than All: Revisiting Fine-tuning Strategy for Few-shot Learning》

Background & Motivation基于元学习、度量学习或者迁移学习的方法大多数都依赖在 base 类上训练的 pre-trained knowledge,之后的做法都大同小异:冻结 backbone,利用 Support Set 直接微调或者利用度量函数来微调网络的 Head 部分。Motivation 是迁移学习中直接将 base 类数据训练出的网络参数迁移到 novel 类不是最优的办法,因为可能会存在“偏见”或者“阻碍”对 novel 类的检测/分类。尽管 base 类和 nove

2021-08-31 17:02:15 864

原创 论文阅读《Prototypical Networks for Few-shot Learning》

Background & Motivation度量学习方法,最开始是基于 KNN 的 Neighborhood Components Analysis(NCA)方法,后续改进方法是输入神经网络来输出非线性的 embedding 来替代NCA 中输出的线性变换表征。而 Prototypical Networks 与这些后续的改进方法十分类似,输出每一类的prototype 表征。元学习方法,可以理解为当一个程序员掌握了基本的 C++、python、Java,后面不管学什么语言都能迅速掌握,这就是元..

2021-08-30 16:04:00 913

原创 论文阅读《End-to-End Object Detection with Transformers》

DETR 采用 transformer 的 encoder-decoder 结构和在预测与 ground truth 间使用二分图匹配算法来实现检测,易于实现并且很容易就可以扩展到分割任务上。DETR 检测大物体效果不错的原因是 transformer 的 non-local 的计算架构,对小物体的检测效果不好可以尝试在 FPN 上做文章,就像 FPN 之于 Faster Rcnn。Learnable NMS methods [15,4] and relation networks [16] ex

2021-08-20 17:25:58 450

原创 论文阅读《Matching Networks for One Shot Learning》

提出了一种基于度量学习和利用外部记忆来增强网络的方法,用一些有标签的 support set 来推测无标签的 query,是一种小样本的图像分类的方法。18年的文章,可以说是小样本学习领域的经典文章。文章自己认为的创新有两面,一个是在模型层面提出 Matching Net,第二个是遵循了一个简单的机器学习准测:训练与测试的数据分布必须相近(这也算创新?)。提出了在 ImageNet 上的一个 benchmark。文章提到了几个激发他们灵感的网络,大都有神经注意力机制,可微分并且使用一个外部记忆来解决

2021-08-14 17:36:06 543

原创 论文阅读《FSCE: Few-Shot Object Detection via Contrastive Proposal Encoding》

提出了一种对比表征嵌入的方法来来实现小样本目标检测,动机是观察到使用不同的 IoU 来检测物体与对比学习方法中对比不同“正对”和“负对”来实现检测有异曲同工之妙。本文实验证明模型的错误更有可能是误分类而不是定位,文本解决这一问题的方法是对“正对”和“负对”施加了对比嵌入损失(CPE loss),使“正对”的得分远大于“负对”的得分,在当时的 PASCAL VOC 和 COCO 数据集上均达到了 SOTA。“正对”“负对”示例...

2021-08-08 21:08:55 3707 1

原创 Pytorch & Numpy & Opencv 笔记

Variable在 Torch 中的 Variable 就是一个存放会变化的值的地理位置。里面的值会不停的变化,就像一个裝鸡蛋的篮子,鸡蛋数会不停变动。那谁是里面的鸡蛋呢,自然就是 Torch 的 Tensor。如果用一个 Variable 进行计算,那返回的也是一个同类型的 Variable。Variable 计算时,它在背景幕布后面一步步默默地搭建着一个庞大的系统,叫做计算图,computational graph。这个图是用来将所有的计算步骤 (节点) 都连接起来,最后进行误差反向传递的时候,

2021-07-28 10:45:02 832

原创 知乎专栏《Light house》笔记

深度理解感受野人类视觉的感受野视野大、关注中心、周围模糊。深度学习的感受野越靠近中心区域的区域越重要、各向同性、由中心向周围的重要性衰减速度可以通过网络结构控制。很大程度上影响着网络的性能,检测、分割都可以从感受野的角度去理解。能改变感受野的操作卷积层、反卷积层、池化层、残差连接、合并连接(Concatenation)。感受野大小计算stride 影响乘号后面的数,filter size 影响括号里的数。参考论文《A Guide to Convolution Arithmetic

2021-07-23 11:46:28 439

原创 论文阅读《Relation Networks for Object Detection》

对物体间的关系建模对识别物体有很大帮助,但是目前来看还没有应用到深度学习领域。本文提出了一个目标关系模块(relation module),同时处理物体的 appearance 和形状特征来对他们的关系进行建模。该模块十分轻便,可以即插即用到现有的 CNN 网络中,提高了物体识别准确率并且提出了一种新的算法来实现 NMS。补充:Attention module...

2021-07-02 21:18:35 387

原创 论文阅读《Meta R-CNN : Towards General Solver for Instance-level Low-shot Learning》

1

2021-06-21 15:35:44 1828 2

原创 论文阅读《Few-shot Object Detection via Feature Reweighting》

提出了一种可以检测只含有少量标注数据的新颖类别物体的小样本模型,充分利用有标签数据,使用一个元特征学习器和一个可以重新调整权重的模块在一个一阶段检测网络中,来快速适应以达到实现新颖类别检测的目的。特征学习器利用大量有标签数据提取那些具有通用性的,可以用来辅助检测新类别的元特征。重新调整权重的模块将新颖类别中的少量 support set 转换成一个全局向量,这个全局向量是元特征中对检测这些新颖类别物体非常重要或者十分相关的特征,实现将元特征的知识迁移到新类别。...

2021-06-19 17:19:13 1818

原创 论文阅读《Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector》

Attention-RPN 和 Multi-Relation Detector

2021-06-17 18:39:07 1295 1

原创 论文阅读《Adapted Deep Embeddings: A Synthesis of Methods for k-Shot Inductive Transfer Learning Tyler》

Adapted Deep Embeddings文章提出神经网络迁移学习的三条主线:权重迁移。深度度量学习。小样本学习。比较了三条主线的三个 SOTA 方案,探索了一种混合的自适应嵌入方法,用目标域的数据来 fine tune 嵌入模块。证明第2种方法也即深度度量学习方法的效果要好得多,可以作为知识域之间迁移和模型复用的起点。发现嵌入模块的损失函数中,histogram loss 具有最强的鲁棒性。文章主要面对k-shot归纳迁移学习中的分类问题,按照迁移学习的思路有三种方法(感觉分类的方式不是很..

2021-06-03 22:21:05 404

原创 论文阅读《Learning to Compare: Relation Network for Few-Shot Learning》

Relation Network (RN)计算机视觉领域的模型需要大量的标注数据和多次迭代来训练它们的大量参数。由于标注成本过高,严重限制了它们对新类的鲁棒性,对于某些新的类别和稀有的类别,其标注数据的代价更高。相比之下,人类只需要少量的有监督学习就能很好的识别物体,甚至不需要学习。比如儿童很容易通过一张图片或者“带着条纹的马”这些描述来知悉斑马的概念,这些都是机器做不到的,因此也激起了研究小样本学习的热潮。同时代的小样本学习方法经常是将训练分解为辅助的元学习阶段,这个阶段可转移知识以良好初始条件、嵌入

2021-06-02 22:22:14 466 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除