![](https://img-blog.csdnimg.cn/20190927151117521.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
论文研究、复现、总结
文章平均质量分 75
知识碎片快速加载
magic_shuang
灵魂歌手
展开
-
【没有哪个港口是永远的停留~论文理解】mask2former
masked attention 的mask加在哪?上图是根据代码和原论文中的图重新绘制的具体结构。具体在Head中的位置:标黄的位置。原创 2024-01-03 17:48:11 · 548 阅读 · 0 评论 -
【没有哪个港口是永远的停留~论文解读】stable diffusion 总结 代码&推导&网络结构
这里之所以在prompt中加入类别,是因为作者想利用预训练模型中关于该类别物品的先验知识,并将先验知识与特殊标记符相关信息进行融合,这样就可以在不同场景下生成不同姿势的目标物体。是两个分布的相似度,分布q是 预测的高斯分布 , 分布p是标准正态分布,这部分越小,两个分布越相似,最终的似然函数越大。作者提出的方法,大致如下图所示,即仅仅通过3到5张图片去微调文生图模型,使得模型能将输入图片中特定的物品和prompt中的特殊标记符关联起来。样例间独立,我们想找到每个样例隐含的类别z,能使得p(x,z)最大。原创 2024-01-02 11:17:56 · 1687 阅读 · 0 评论 -
【没有哪个港口是永远的停留~论文解读】MIM_2022_CAE (Context Autoencoder for Self-Supervised Representation Learning)
图6:说明了在ImageNet-1K上预训练的ViT编码器的最后一层中,类令牌和补丁令牌之间的12个注意力头的平均注意力图。顶部:输入图像,中部:MoCo v3,这是一种典型的对比学习方法,底部:我们的CAE。这要求CAE编码器关心 patches 的表示,而不仅仅是全局表示,以便CAE探索 patches 之间的关系,以进行预测。,因此来自同一图像的不同crops 的表示可能是相似的。的情况下,最大化 masked patches 的预测Ym的概率:P(Ym|Xv,Pv,Pm)。它可以通过引入潜在表示。原创 2023-12-29 13:58:45 · 1088 阅读 · 0 评论 -
【没有哪个港口是永远的停留~论文解读】自监督 BEITv2:Masked Image Modeling with Vector-Quantized Visual Tokenizers
大多数现有的研究都是针对。原创 2023-12-29 10:54:17 · 1188 阅读 · 0 评论 -
【没有哪个港口是永远的停留~论文简读】HRNet+OCR
从HRNet中学习到的高分辨率表示不仅在语义上很强,而且在空间上也很精确。这来自于两个方面。(i)我们的方法是将高到低分辨率的卷积流并行连接,而不是串联连接。因此,我们的方法能够保持高分辨率,而不是从低分辨率中恢复高分辨率,因此,学习到的表示可能在空间上更精确。(ii)大多数现有的融合方案聚合了通过上采样低分辨率表示获得的高分辨率低级和高级表示。相反,我们在低分辨率表示的帮助下,重复多分辨率融合来提高高分辨率表示,反之亦然。因此,所有的高到低分辨率表示都在语义上是强的。原创 2023-12-28 20:36:54 · 965 阅读 · 0 评论 -
【没有哪个港口是永远的停留~论文解读】Polarized Self-Attention
H]空间分辨率,也关注内部,保持Wq 和 Wv 中的 2×C×C/2 个可学习参数,非线性 Softmax 重新加权,这是比现有块更强大的结构。此外,在我们的仅通道注意力中,Softmax重新加权与SE激励融合,利用 Softmax 作为大小 C/2 × W × H 的 bottleneck 处的非线性激活。由于总强度的损失,滤波后的光通常具有较小的动态范围,因此需要额外的提升,恢复原始场景的细节。通道数 (C-C)/(2-C) 遵循SE模式,这比GC 和 SE 块都好。通道注意力+空间注意力。原创 2023-12-28 20:21:57 · 1291 阅读 · 0 评论 -
【没有哪个港口是永远的停留~论文简读】Panoptic SegFormer
具体来说,给定N个随机初始化的query和由Transformer编码器生成的细化的特征token,解码器将输出N个具有位置感知性的query。在训练阶段,作者在位置感知query的基础上应用一个辅助的MLP头来预测目标对象的尺度和中心位置,并使用位置损失来监督预测。由于多头注意层的计算成本高,以往基于Transformer的方法只能在其编码器中处理低分辨率的特征图(如ResNet的C5),这限制了分割性能。在全景分割任务中,位置信息在区分具有不同实例id的things方面起着重要的作用。原创 2023-12-28 20:16:03 · 902 阅读 · 0 评论 -
【没有哪个港口是永远的停留~论文解读】Both Style and Fog Matter
解决问题:大雾、下雨、下雪天模糊场景1-去雾算法,人工干扰2-合成的雾图像,不像真实的雾图像那样真实,也会扩大清晰图像和雾图像之间的域差距,产生不令人满意的性能。此外,我们认为这些方法过多地考虑了雾的因素,而忽略了其他因素,这可能会影响SFSU问题中的域差距。开箱即用,我们建议明确研究SFSU中的域间隙我们假设域间隙是由混合雾的影响和风格变化引起的,这两者对SFSU都很重要。利用衡量分割模型在特 定领域的整体性能,即领域性能。训练:s 域测试:s、m 和 t 域 计算 MVV。原创 2023-12-28 20:11:29 · 916 阅读 · 0 评论 -
【没有哪个港口是永远的停留~论文解读】FlowNet 2.0
warp 后的流细化的积极效果可以抵消这个问题,但当堆叠网络一个接一个地训练时,可以获得两者的最佳效果,因为这避免了过拟合,同时具有流细化的好处。6) 现象【Chairs→Things3D 优于 mixed】推测:更简单的Chairs数据集有助于网络学习颜色匹配的一般概念,而不会过早地为3D运动和逼真的照明开发可能令人困惑的先验。(1)仅堆叠网络而不warp 可以提高Chairs的结果,但会降低Sintel的性能,即堆叠网络过于拟合。(3) 当训练堆叠的网络端到端时,在Net1之后添加中间损耗是有利的。原创 2023-12-28 19:48:36 · 1044 阅读 · 0 评论 -
【没有哪个港口是永远的停留~论文解读】基于光流的分割 Dynamic Video Segmentation Network
是决定是否通过。原创 2023-12-28 19:23:23 · 898 阅读 · 0 评论 -
长尾问题之CAM
CAM是一个帮助我们可视化CNN的工具。使用CAM,我们可以清楚的观察到,网络关注图片的哪块区域。比如,我们的网络识别出这两幅图片,一个是在刷牙,一个是在砍树。计算过程:热力图:W1*蓝色层+W2*红色层+…+Wn*绿色层=类激活映射(CAM),所以说CAM是一个加权线性和。可以看到,可视化过程是去掉GAP(全局平均池化)的,直接将线性层和特征图相乘。原创 2023-12-15 11:38:40 · 69 阅读 · 0 评论 -
长尾问题之LDAM
LDAM原创 2023-12-15 11:20:12 · 168 阅读 · 0 评论 -
YOLOv5 转 Tensor RT
step1:pt 模型转成 onnxyolov5/model/export.py输出模型:XXX.onnx XXX.torchscript.ptstep2:查看输出的onnx模型安装 netronpip install netron用netron看模型import netronnetron.start('best.onnx')step3:onnx-simplifier 简化模型安装 onnx-simplifierpip install onnx-s...原创 2021-08-06 13:06:38 · 1011 阅读 · 0 评论 -
【论文 目录】
目标检测论文 作者 原文 解读 亮点 OverFeat Sermanet, PierreEigen, David 论文地址 理解 多尺度输入 YOLO .v1 理解 YOLO .v2 理解 YOLO .v3 理解 YOLO .v4 论文地址 理解 ...原创 2020-11-22 22:10:16 · 171 阅读 · 1 评论 -
【没有哪个港口是永远的停留~ 论文简读】图卷积 GCN
论文:Graph Neural Networks: A Review of Methods and Applications(GNN)论文:前言Graph Convolutional Network,简称GCN ,一般应用在推荐系统,交通预测等这种抽象问题的学习中,但是也有应用在CV领域的例子。所以在CV领域,我对于它的学习没必要过深,但还要了解原理思想,于是写下此文章。本文是我的理解过程的记录,所以是以问题形式推进的,笔不会掉,适合我的同类轻松观看。解释GNNGCN...原创 2021-02-13 16:55:54 · 195 阅读 · 0 评论 -
【没有哪个港口是永远的停留~ 论文简读】Relational Knowledge Distillation
论文:Relational Knowledge Distillation【1】关系知识蒸馏,中的关系知识是啥?如图1,很明显就是字面意思,传统的知识蒸馏是让学生输出与教师模型一致,而本论文提出,输出之间的关系是要学习的知识图1传统的KD loss求法:其中是一个损失函数,它惩罚老师和学生之间的差异。可以KL散度【2】咋算的这个关系知识?图2如图2,很直观,通过teacher的输出提取出关系与学生的求loss那么其中的怎么算的?就是欧式距离,最终..原创 2021-07-14 10:49:41 · 368 阅读 · 0 评论 -
【没有哪个港口是永远的停留~ 论文简读】2017 Learning Efficient Object Detection Models withKnowledge Distillation
链接:2017 Learning Efficient Object Detection Models withKnowledge Distillation这篇论文是基于Faster--RCNN模型的 ,模型中的RPN部分对应图中Soft Label对应部分 RCN部分对应的是最右侧的预测,最终的Loss表示为一点一点看哈【1】先看左边的部分,是选取Teacher模型的中间层,以及Student的一个中间层。添加个适应层Adaptation,保证Teacher和Student同尺寸..原创 2021-07-13 17:54:51 · 291 阅读 · 0 评论 -
【没有哪个港口是永远的停留~ 论文总结】KD 知识蒸馏 目标检测 YOLOv5
前言:知识蒸馏干的事很简单,就是把大模型的输出作为小模型的软标签,这样小模型不仅有数据集的硬标签,还有大模型的软标签但是,令人头疼的是,对于分类问题这个软标签的定义很清晰明确,就是分类的置信度,但是目标检测的检测框,这个软标签应该是什么?最终预测的box?所有box输出?实验结果很差,还不如直接训练小模型准呢,看来还是不能想当然的无脑梭哈!那目标检测的软标签应该是什么?研究了X篇论文,在此记录一下他们的思路和方法2021 General Instance Distillation f原创 2021-07-13 16:33:54 · 1925 阅读 · 16 评论 -
【没有哪个港口是永远的停留~ 论文简读】SlowFast
code:https://github.com/facebookresearch/SlowFast论文:SlowFast Networks for Video Recognition没打算研究,但看到了何凯明三个大拼音,闪瞎了我的狗眼一、模型长啥样?很直观以ResNets 为例,展示怎么设置网络结构很明显,转化的特点是:Slow/Fast可以是不同的任何模型 找尺寸相同的靠后层做几个侧链接,res4&res5 (前面层的加上不准) Fast要快,所...原创 2021-08-02 17:42:45 · 158 阅读 · 0 评论 -
【没有哪个港口是永远的停留~论文复现】人脸识别 loss测试
基本情况:代码:PyTorch数据集:手写数字学习率:0.1~0.0001优化器:ADAM模型:lenet批次:256 epoch 1000以内设备:1080Ti 11g1-softmax loss训练集准确率0.993测试集:如图1-AM_softmaxS * (COS(<x,w>) - m3)训练集:准确率0.996测试集:如图1-center loss...原创 2020-12-20 17:09:17 · 174 阅读 · 0 评论 -
【代码裁缝】YOLOv5 l to s Distillation
part1:源码赏析源码:... ... # student rois, cls_prob, bbox_pred, \ rpn_loss_cls, rpn_loss_box, \ RCNN_loss_cls, RCNN_loss_bbox, \ rois_label, stu_feature, mask_batch = fasterRCNN(im_data原创 2021-07-16 10:41:26 · 877 阅读 · 6 评论 -
【没有哪个港口是永远的停留~ 论文简读】2019 Distilling Object Detectors with Fine-grained Feature Imitation
链接:2019 Distilling Object Detectors with Fine-grained Feature Imitation代码:https://github.com/twangnh/Distilling-Object-Detectors思路是:首先定位这些知识密集的位置,并让学生模型模拟教师的高级特征反应图1如图1所示:【1】labels -> Fine-grained feature imitation Mask用标签框形成W×H×K 大小的...原创 2021-07-13 16:30:31 · 638 阅读 · 0 评论 -
【没有哪个港口是永远的停留~ 论文简读】GI Distillation for Object Detection
链接:2021 General Instance Distillation for Object Detection知识蒸馏典型的知识形分三类:基于响应的知识、基于特征的知识、基于关系的知识这篇论文是三种知识都用上了理解算法主要分5步,下面一一解释step1:GISM是啥? step2:咋通过GISM进行特征知识截取的? step3:咋通过GISM计算关系知识? step4:咋算响应知识的? step5:真的好使么?step1:GISM是啥?论文GISM模块计算过程如图...原创 2021-07-13 14:54:03 · 512 阅读 · 0 评论 -
【没有哪个港口是永远的停留~ 论文简读】R-CNN、Fast R-CNN 、Faster R-CNN
论文:R-CNN论文:Fast R-CNN论文:Faster R-CNN原创 2021-02-16 14:00:50 · 109 阅读 · 1 评论 -
【没有哪个港口是永远的停留~ 论文解读】RetinaFace
论文:RetinaFace: Single-stage Dense Face Localisation in the Wild代码:https://github.com/deepinsight/insightface/tree/master/RetinaFace.概要:虽然在人脸检测方面已经取得了巨大的进展,但在非实验室环境的精确和高效的人脸定位仍然是一个开放的挑战。 本文提出了一种鲁棒的单级人脸检测器,名为RetinaFace,它利用extra-supervised 和 self-superv原创 2021-02-14 14:27:33 · 632 阅读 · 0 评论 -
【没有哪个港口是永远的停留~ 论文解读】ArcFace
论文:ArcFace: Additive Angular Margin Loss for Deep Face原创 2020-12-31 13:44:18 · 646 阅读 · 0 评论 -
【没有哪个港口是永远的停留~ 论文解读】AM - softmax
论文:Additive Margin Softmax for Face Verification原创 2020-12-02 13:16:44 · 306 阅读 · 0 评论 -
【没有哪个港口是永远的停留~ 论文解读】SphereFace
论文:SphereFace: Deep Hypersphere Embedding for Face Recognition代码:at https://github.com/wy1iu/sphereface.摘要本文讨论了开放集协议下的人脸深度识别(FR)问题,其中理想人脸特征的最大类内距离小于最小类间距离在适当选择的度量空间下。 然而,现有的算法很少能有效地实现这一准则。 为此,我们提出了角Softmax(A-Softmax)损失,使卷积CNNs学习角度鉴别特征。 几何上,A-Softmax损原创 2020-12-01 17:05:31 · 450 阅读 · 0 评论 -
【没有哪个港口是永远的停留~ 论文解读】DeepVisage
论文地址:DeepVisage: Making face recognition simple yet with powerful generalization skills摘要:提出了一种易于训练和单一的基于CNN的FR(人脸识别)方法。 我们的CNN模型利用残差学习框架。 此外,它还使用normalized features 来计算损失。 泛化:我们广泛的实验表明,在不同的数据集上有很好的泛化能力。 成就:我们在LFW、IJB-A、You Tube Faces和CACD数据集上获得 co.原创 2020-12-01 13:35:23 · 189 阅读 · 0 评论 -
【没有哪个港口是永远的停留~ 论文解读】L2-Softmax
论文地址:L2-constrained Softmax Loss for Discriminative Face Verification摘要成就:具体来说,我们在具有挑战性的IJB-A数据集上实现了最先进的结果,在FA=0.0001下实现了0.909的TA此外,我们在LFW数据集上获得了最先进的性能,准确率为99.78%,在YTF数据集上获得了96.08% 提出问题:而softmax损失函数,对正对具有较高的相似性评分,对负对具有较低的相似性评分,从而导致性能差距。 解决问题:我们在特征描述符原创 2020-11-27 14:15:35 · 649 阅读 · 0 评论 -
【没有哪个港口是永远的停留~ 论文解读】L-Softmax
论文地址:Large-Margin Softmax Loss for Convolutional Neural Networks摘要提出问题:交叉熵损失和Softmax可以说是卷积神经网络(CNNs)中最常用的监督组件之一)。 尽管它简单,流行和优秀的香水 该组件没有明确地鼓励对特征的鉴别学习。解决问题:本文提出了一种 large-margin Softmax(L-Softmax) 损失,它显式地鼓励类内紧凑和类间可分离。 此外,L-Softmax不仅可以调整所需的 margin ,而且可以避免原创 2020-11-26 14:11:59 · 990 阅读 · 0 评论 -
【没有哪个港口是永远的停留~ 论文解读】FaceNet
论文:FaceNet: A Unified Embedding for Face Recognition and Clustering摘要以前的深度学习方法那样的中间 bottleneck layer 。我们用使用一种新的triplets 方法。 triplets 方法,由在线生成匹配/不匹配组合 只使用128 维表示人脸。 成就:LFW-dataset 99.63%. On YouTube Faces DB it achieves 95.12%.IntroductionL2代表相似..原创 2020-11-25 17:35:15 · 365 阅读 · 0 评论 -
【没有哪个港口是永远的停留~ 论文解读】OverFeat
原文:Integrated Recognition, Localization and Detection using Convolutional Networks 利用卷积网络进行集成识别、定位和检测摘要:提出了一种利用卷积网络进行分类、定位和检测的集成框架。 我们展示了如何在ConvNet中有效地实现多尺度和滑动窗口方法。 我们还介绍了一种新的深度学习方法,通过学习 object boundaries 来实现定位。 然后,为了增加检测置信度,Bounding boxes被累积而不是抑.原创 2020-11-22 22:02:35 · 292 阅读 · 0 评论 -
【没有哪个港口是永远的停留~论文解读】DenseNet
论文地址:Densely Connected Convolutional Networks代码:https://github.com/liuzhuang13/DenseNet.开始随着CNN越来越深,一个新的研究问题出现了:当输入或梯度的信息通过许多层时,当它到达网络的末端(或开始)时,它就会消失。参考resnet等,它们都有一个关键的特性:它们从早期层到后期层创建短路径。...原创 2020-10-08 21:21:54 · 130 阅读 · 0 评论 -
【没有哪个港口是永远的停留~论文解读】ResNet
文章地址:《Deep Residual Learning for Image Recognition》开始成就ILSVRC和COCO2015比赛 ImageNet detection, ImageNet localization, COCO detection, and COCO segmentation. 的第一名介绍残差结构如图剩余函数 : H(x)=F(x)+xH(x) = F(x) + xH(x)=F(x)+x其中:x是输入,H(x)是输出,F(x)是中间层定义block原创 2020-10-07 21:50:46 · 1447 阅读 · 0 评论 -
【没有哪个港口是永远的停留~论文解读】VGG
原文地址:VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION简单的说:(如果你是从本人其他博客跳转来的,读这段就行了)-------------行了,可以回去了开始目录一、NET 设计部分网络结构:输入:224 X 224 X 3(RGB)预处理:减去数据集平均RGB 卷积核:3X3最小感受野,1X1做线性变换,步长1像素,方式 padding池化:最大池化,2x2 步长为2全链接:3层softmax原创 2020-10-06 22:03:38 · 442 阅读 · 0 评论 -
【没有哪个港口是永远的停留~论文解读】YOLO v4
原文:YOLOv4: Optimal Speed and Accuracy of Object Detection摘要:尝试了很多优化,最终达到了:准确率:43.5% AP (65.7% AP50)数据集:MS COCO速度:65 FPS显卡: Tesla V100当前技术归纳现代 detector 通常由两个部分组成,一个是在Image Net上预先训练的 backbone,一个是用来预测对象的类和bounding boxes 的head。【backbone 部分】:GPU原创 2020-10-01 20:42:11 · 782 阅读 · 0 评论 -
【没有哪个港口是永远的停留~论文解读】YOLO v3
Bounding Box Prediction和v2一样Class Prediction每个框使用多标签分类预测Bounding Box可能包含的类。 我们不使用Softmax,相反,我们只是使用了independent logistic classifiers。 在训练过程中,我们使用binary cross-entropy loss进行类预测当我们移动到更复杂的领域,如开放图像数据集[7]时,这个公式会有所帮助。 在这个数据集中有许多重叠的标签(即。 妇女和个人)。 使用Soft...原创 2020-09-27 20:44:10 · 158 阅读 · 0 评论 -
【没有哪个港口是永远的停留~论文解读】YOLO v2
YOLO v2哪些部分进行了升级如表中所示BN层的添加理论: 批归一化导致收敛的显著改善,同时消除了对其他形式正则化[7]的需求。实践:通过在YOLO中的所有卷积层上添加批归一化,我们在mAP中得到了2%以上的提高。 批规范化也有助于模型的规范化。 通过批处理归一化,我们可以从模型中删除dropout,且不会过拟合。High Resolution Classififier理论:所有最先进的检测方法都使用在Image Net[16]上预先训练的分类器。 从AlexNet开始..原创 2020-09-23 17:08:56 · 166 阅读 · 0 评论 -
【没有哪个港口是永远的停留~论文解读】YOLO v1
概要我们介绍了YOLO,一个用于对象检测的统一管道。 以前关于对象检测的工作将分类器重新用于执行检测。 相反,我们将对象检测框架作为spa的回归问题 分离的包围框和相关的类概率。 单个神经网络在一个评价中直接从完整图像中预测包围盒和类概率。 从整体来看 检测流水线是一个单一的网络,它可以直接对检测性能进行端到端的优化。 我们的统一架构也非常快;YOLO在45fra实时处理图像 每秒MES,比现有的检测系统快数百到数千倍。 我们的系统使用全局图像上下文来检测和定位对象,使其不太容易出现背景错误 像R-..原创 2020-09-19 21:01:26 · 146 阅读 · 0 评论