Blue_Whale2020-CSDN博客

原创 OSError: stabilityai/sd-vae-ft-mse does not appear to have a file named config.json.

然后运行仓库下面scrpits/convert_vae_pt_to_diffusers.py。仓库的使用遇到了这个bug，原因是hugging face在加载线上仓库的时候遇到了问题，然后拉一下hugging face的diffusers的官方git仓库。输入路径就是你刚才下载的权重，输出路径是json信息的保存路径。然后你把报错位置的代码从。

2024-03-05 20:26:25 6037 25

这是一种使用GAN来生成对抗样本的模型代码：首先来看一个训练过程代码中首先训练的是D 首先用generator生成干扰项 perturbation，然后与原图相加形成对抗样本 adv_images 当然训练一个D的loss分为了两部分，loss_D_real旨在拉近吃正样本之后的输出与1的距离loss_D_fake旨在拉近吃负样本之后与0的距离，这里的负样本就是对抗样本，输入的时候不要忘了detach掉 # op...

2022-04-08 22:51:44 2390 1

原创 CycleGAN 代码笔记

define_G有两种实现方式分别是 ResnetGenerator 和 UnetGeneratorResnetGeneratorUnetGenerator

2022-04-08 17:32:30 2370

原创 DAG的algorithm

DAG是一个使用在目标检测场景下的对抗样本生成模型应该是第一个应用在目标检测场景下的这部分的算法设计主要是对应了Faster RCNN这种二阶段检测模型其中 target set 是一张图片中所有的预测，在网络训练的过程中，这些预测都会被唯一分配一个ground truth label这些正确的ground truth label组成了original label setadversarial label set的生成和original label set有一种关系，advers

2022-04-07 17:07:58 3692

转载 vision transformer 笔记

vision transformer 笔记patch embedding这个patch_embdding 的过程就是把原来224*224*3的图片，分成14*14个小格子，每一个小格子是16*16的大小，然后16*16的这个数量被合并到了通道维度上所以最后变成了 16*16*3 = 768，就是每一个小格子有768个内容self.grid.size = 256/16 = 14，就是每一个格子的数量self.proj:kernel_size = 16,stride = 16Arre

2022-04-01 10:29:58 963

原创 CLIP__视频笔记

learning高新能的迁移学习模型CLIP不在imagenet 128k的数据集上做预训练，能取得与预训练的ResNet50有同样的效果

2022-03-28 16:15:05 1756

转载格式化字符串

三种语法%，format，f-stringprint("格式 %s" %'hello')##%[-][+][0][m][.n]格式化字符参数m：占位符-：左对齐+：右对齐，其中-+都需要配合m使用.n：在字符串中代表截取字符串的前n位0：在数字的输出中，可以把左边都补0格式化字符 %s 占位符 %d 10进制 %o 8进制 %x 16进制 %f 浮点数(默认6位小数) Formattemplate = '

2022-03-27 22:49:33 613

原创 shuffleNet

旷世商汤依图云从分组卷积深度可分离卷积分组卷积分组卷积的实现四条轻量化网络设计的原则1、输入输出通道数相同会最小化内存的访问量2、分组数过大的分组卷积会增大内存访问量3、碎片化的操作对并行操作不友好...

2022-03-21 22:37:03 460

转载 leetcode中级

中级提升班1：主要是刷题：贪心策略，把绳子最右侧的点放在一个存在的点上，然后从右往左看，把绳子左侧的端点定位在数轴上，然后在数轴上找到大于等于左侧断点处最左的位置（二分法），然后下标计算得到长度更好的方法滑动窗口确定一个左指针，每次定位在数轴中的每一个点，确定一个右指针，根据做指针再往左推L个位置。由于左右指针都不回退，所以整个时间复杂度为O(N)，没有代码16：37简单的策略是先尽量使用8类型的袋子这里一个取巧的方法是，当剩余未搞定苹果的个数大于24个的时...

2022-03-17 19:30:32 618

原创 Distillation

蒸馏，把有杂质的东西变成纯度高的知识从教师网络集成到学生网络，这个过程叫迁移，这么做的原因是终端的算力有限，需要高效率有关嵌入式开发也有教程！！问题的引入：标签有问题，马更像驴而不想汽车，训练教师网络的hard target有问题，所以由教师网络得来的soft target有更多的信息，尽管“知识”的概念代表了网络中学习到的权重或参数，但是参数这种东西是无法迁移的蒸馏温度T越高，整体的标签就会越soft，这样非正确的类别之间的相对信息就会被充分的暴露出来.温度T是一个需要精细调控

2022-03-11 23:49:53 1215

原创 CycleGan

gan用在unsupervised learning的例子之前神经网络的训练数据都是成对的，数据对应标签，x对应y，但现在x和y是不成对出现的这些不成对的数据是 unlabel的数据，利用这种就是semi-supervised learning图片风格转换本质是，x domain 转换为 y domain，所以说这个问题不是很难，需要训练一个discriminator遇到domain y的图片就给高分，遇到domain x的图片就给低分现在我们需要generator输出一张y domai

2022-03-06 00:16:38 201

转载 leetcode 左程云笔记

P5 二叉树0：0：53两链表相交问题：可能有环可能无环，要求时间复杂度o（n）4：42 判断一个链表是否有环的方法：使用哈希表：每到一个节点就查询节点在不在哈希表里，不在就添加在表中12：21快慢指针法快指针如果指向null，那么链表无环，如果有环，快慢指针会在环上相遇20：56 解决了两个链表各自有没有环这个问题之后，开始解决链表相交问题25：33 如果两个链表的结尾不相同，那两个链表一定不会相交，因为不会有类似“X”形状的分叉结构28：40 链表1无环链表2无环

2022-02-13 21:33:40 2070 1

原创 BoTNet

最近看到了这个推送，将transformer和CNN是如何相互借鉴的里面T2T-ViT没太关注，感觉就是在PE（patch embedding）之前加入了特征提取和融合提高了计算量主要好奇BoTNet里的这幅插图，里面的Rh和Rw是什么，这种空间位置编码挺奇特的然后最主要的是，作者是从什么角度出发相信MHSA的方法能够work的有关这样设计的原因在引言是这么说的现在在对transformer在使用上有了两个分支，分别是将MHSA替代原有的block，这种引入self-

2022-01-22 11:34:48 2746 1

原创 ConvNeXt视频学习笔记

霹雳吧啦WzConvNeXt网络详解_霹雳吧啦Wz-CSDN博客ResNeXt算法详解_AI之路-CSDN博客_resnext

2022-01-22 09:28:38 3399

原创 DETR - Deformable DETR - Conditional DETR

DETR物体检测思路：首先使用CNN提取特征然后使用Transformer来检测物体，与之前的目标检测框架下相比，这篇文章的工作要简单很多。而且没有特别多需要调整的超参前向过程：图1首先输入CNN提取特征，提取到的特征图仍然具有图像的形式，只是通道数更深，尺寸更小，可以把特征图视为更高层次的特征表达输入transformer encoder-decoder 输出一系列的框(set of box predictions），这个box是一个元组里面存储了类别c和框的位置，这box的类别可能为.

2022-01-21 22:28:23 1415

转载对比学习串烧

对比学习在计算机视觉领域的发展历程，回顾那些有代表性的工作1、百花齐放（18-19）2、cv双雄（19-20）3、不适用负样本4、Transformer———————————————————————————————————————————1、InstDis（instance discrimination)、CPC、CMC，第一阶段模型没有统一，目标函数也没有同统一，代理任务也没有统一2、mocov1、simclrv1、mocov2、simclrv2、CPC CMC的延申工作，以及

2022-01-19 18:13:45 631

转载 MoCo

Momentum contrast for unsupervised visual representation learning无监督-对比学习先介绍一些对比学习的一些概念和工作引用leCun在NeurIPS 2016的一张图，机器学习领域，强化学习是蛋糕上的樱桃，监督学习是蛋糕上的糖霜，只有无监督学习才是蛋糕的本质模型不需要识别出图片的精确类别，模型只需要判断出哪些图片是类似的，哪些图片是差异巨大的。比方三张图片（男人，女人，狗），网络能抽取出特征f1 f2 f3，同时能做到拉近f1 和

2022-01-19 12:29:17 649

转载 V I T

题目：一张图片等价于16*16大小的单词摘要：transformer把imagenet当成小模型摘要中提到的需要比较少的训练资源指的是 2500天TPU训练天数Introductiontransformer的使用在目前看来还没有遇到任何性能饱和的问题在自然语言处理中，一个token代表一个单词，目前硬件所能支持的token的最长序列为几百或上前，比如BERT中使用的512，但是在视觉领域中，首先就要解决序列长度的这个问题。解决方法，把一张图片分解成很多patch ，假设一张图片的长

2022-01-18 22:45:03 429

转载 swin transformer

滑动窗口的空间视觉transformerAbstract计算复杂度是随着图片大小成线性增长的，而不是平方使用CNN，融合多尺度的特征，可以很好的迁移到下游任务中。引言VIT有16倍的下采样率成每一个patch,虽然vit有全局注意力，但是对多尺度特征的把握能力就会相对差一点。 swin 只在局部区域的小窗口内计算attention,这个计算复杂度只和小窗口的数量成线性关系，即使局部注意力也是完全够用的，因为目标只会出现在相近的位置上。 cnn最能提升感受野的位置是pooling操作，对

2022-01-18 20:19:59 1155

转载即插即用的网络插件

转载自极市平台原文地址这里记录一下用于下次自己用的时候快速上手STN:空间阈的变换，能够学习并增强网络的旋转不变性和平移不变性ASPP：多尺度空洞卷积以提高感受野，使用空间金字塔进行尺度融合Non-local : 空间注意力，有些类似于self-attention的操作SE ：通道域注意力CBAM：通道域+空间域注意力，看伪代码能看的懂DCN：——coordconv:这篇文章太有意思了，看起来对文章要实现的东西有很多争论的样子，我得吃吃瓜。这篇文章之所以有趣是因

2022-01-18 16:14:42 201

原创 RepVGG

有关BN其中扩展参数 gamma, 和平移参数 β，也是一种输入到输出的映射关系，所以可以通过反向传播学习的。RepVGG里面需要说一下的就是Op融合阶段详解的那张图中的图b,这个图的背景是输入输出通道数都为2所以一共需要2个卷积组（对应输出通道），每个卷积组里2个卷积核（对应输入通道）。所以不管是3*3的卷积还是1*1的卷积都为4个，可以注意到在op融合之前，每个conv层的param是只有权重没有偏置的，在这篇文章的后半部分有关于这一点的说明。同时也解释了为什么BN层的四个参数，每

2022-01-18 09:22:43 518

转载 mobilenetv1-v2-v3 - shufflenet

mobilenetv1:https://zhuanlan.zhihu.com/p/31551004https://zhuanlan.zhihu.com/p/31551004深度可分离卷积、两个网络瘦身算子width multiplier和resolution multiplier，分别用于减少通道数和特征图宽度mobilenetv2:https://blog.csdn.net/u011995719/article/details/79135818https://blog.csdn.net

2022-01-17 22:34:04 250

转载 Uncertainty_Bounding Box - Generalized Focal Loss - NanoDet

uncertainty_bbox这篇文章的insight是，一个传统bbox label的分布是一个单位脉冲函数，作者的想法是如何使用一个高斯分布来柔和地学习这个单位脉冲函数，这个高斯分布的均值是bbox在图像中的位置。方差是“接近label”的程度——————————————————————————————————generalized focal loss这篇文章主要是发现了focal loss中一些不足的地方，主要在于fcos在评估质量和评估类别的关系是不合理的。如何改进？（1）

2022-01-17 15:08:59 140

原创 one_stage - anchor_free - FCOS

FCOS最近看到了这篇文章anchor free和anchor based的目标检测方法的区别到底在哪里所以补一下fcos还是没看代码，有些模型流程全靠论文理解，这个以后会补上先放两个看起来不错的讲解FCOS_csdnFCOS_知乎—————————————————————————————————有关几个看不明白的地方有关标签的分配策略FCOS会先把feature map上所有的点回归到原图上去回归是指回归到这个点对应在原图的感受野中心，如果回归到原图的点落入到一个ground

2022-01-17 10:44:41 730

原创 OHEM - non_local - smooth L1 loss - Libra R-CNN

OHEM - non_local - smooth L1 loss - Libra R-CNN文章还是主要讲libra rcnn 和一些拓展知识我C我这一看我每天实习的内容不就是hard neagtive mining吗，还是人工的那种☹️☹️☹️OHEM正常的hard negative minine 确实存在训练慢的问题，比如我自己每次训练完模型都得重新弄一套测试+重新训练的pipeline 很麻烦。OHEM的思路也不太难理解faster rcnn的训练策略出了什么问题？faster

2022-01-16 23:08:32 10770

原创 EffcientNet - EffcientDet - D2Det

开始说这篇文章很难复现，比官方TF更快的版本知乎的回答提高网络精度的三种方法：加深、加宽、提高图像分辨率，这篇文章提出了一个简单有效的复合方法。这也是合理的，图像分辨率高了网络也得相应的变深变宽才行。我们需要网络变宽来获得更大的感受野捕获更多的像素，需要网络层数变深来学习到高分辨率图片中更细粒度的特征。然后我就在有限的资源下搜索空间资源提到 bi中的i就提高https://zhuanlan.zhihu.com/p/96773680https://zhuanlan.zhihu.com/

2022-01-16 20:26:49 2261

原创 Cascade R-CNN

cascade 一些图的理解

2022-01-15 22:39:36 324

原创 transformer - RelationNet

transformer - RelationNet先挂参考链接relationet从做法上来看，简直参考了transformer太多的东西，我没去看文章，以后会补上，如果要是不说明白每一步为什么这么设计，这个工作也太… ????????????挂一张李宏毅老师讲解transformer的图就能明白这两个有多像了网上也有很多不错的trnasformer的讲解啦，但是我就想看这个直观的关系图也一直找不到。我去网上搜竟然收费，再次无语人家课程都是免费的????????????，直接把百度网盘挂给大家

2022-01-15 20:39:06 245

原创 Mask RCNN -- Mask Scoring R-CNN

https://zhuanlan.zhihu.com/p/37998710https://zhuanlan.zhihu.com/p/37998710https://blog.csdn.net/qq_37392244/article/details/88844681https://blog.csdn.net/qq_37392244/article/details/88844681

2022-01-14 23:21:27 529

原创 CenterNet - CornerNet

centernet cornernet 理论

2022-01-14 22:25:47 280

原创 AlignDet

AlignDet具体论文链接，这里我只记录我自己看不懂的地方AlignDet????????????3.1For a RetinaNet [16] detector with a P3 − P7 FPN backbone, the strides for different pyramid levels are {8, 16, 32, 64, 128}. When equipped with an anchor box of a scale factor of 4, this detector y

2022-01-14 20:25:22 968

转载 DCNv1 - DCNv2 - RepPoint

从faster-rcnn谈起：faster-rcnnhttps://zhuanlan.zhihu.com/p/31426458具体ROI-pooling的解读：ROIpoolinghttps://blog.csdn.net/u011436429/article/details/80279536RFCN到底怎么改进了ROI-poolingRFCNhttps://www.cnblogs.com/shouhuxianjian/p/7710707.htmlDCN1继续改进了ROI-poolinght

2022-01-14 13:00:36 283

原创【lenet_tensorrt_代码工程讲解】

lenet_tensorrt_c++ 推理代码解读————————————————————————tensorrt cuda的加速代码都是闭源的，所以只详细学习一个最简单的用例，来了解cuda推理的实现过程。下面所说的代码来自lenet_wangxinyu目录cuda_gdbCMakeLists.txt代码1、Cuda_gdb当尝试使用gdb来调试的时候，你就会发现一个问题Missing separate debuginfos, use: debuginfo-instal

2022-01-08 14:29:38 1265

原创快速做images和label

一个实习生一半时间都在处理数据吧，一个mentor告诉我不行就写个python脚本，另一个mentor告诉我学学shell，不要啥都写脚本，代码可能也不复用。反正一切都是为了提高效率:ambulance:

2021-12-29 17:17:03 484

原创做数据集统计脚本

import panda as pdx = pd.DataFrame(b.transpose(),columns['x','y','width','height'])#b.shape = [num_labels,4]#使用pd来建立一种数据结构，使用类似excel表来管理b的每一列import seaborn as snssns.pairplot(x, corner=True, diag_kind='auto', kind='hist', diag_kws=dict(bins=50),.

2021-12-22 18:44:31 1177

原创 matplotlib生成随机颜色的rgb

import matplotlib.pyplot as pltdef color_list(): def hex2rgb(h): return tuple(int(h[1 + i:1 + i + 2], 16) for i in (0, 2, 4)) return [hex2rgb(h) for h in plt.rcParams['axes.prop_cycle'].by_key()['color']]plt.rcParams['axes.prop_cycle'].

2021-12-21 18:55:30 1986

原创 pycuda和tensorrt的版本抄作业

一个开源的gitGitHub - wang-xinyu/tensorrtx: Implementation of popular deep learning networks with TensorRT network definition APIImplementation of popular deep learning networks with TensorRT network definition API - GitHub - wang-xinyu/tensorrtx: Implemen...

2021-12-19 22:24:05 481

空空如也

迁移学习训练中，测试损失不收敛，不下降