深度学习
文章平均质量分 82
深度学习
我想静静,
这个作者很懒,什么都没留下…
展开
-
HDNet: Hybrid Distance Network for semantic segmentation
HDNet: Hybrid Distance Network for semantic segmentation摘要IntroductionRelated workApproach摘要语义分割是一种基于像素的标注任务,即根据每个像素的特征预测每个像素的标签。然而,现有的方法分离了特征图中点之间的关系,导致分割结果不连续。为了解决这一问题,我们提出了一种混合距离网络HDNet来从两个方面来测量距离。首先,本文提出一种混合距离关系模型来对某点与其上下文区域之间的关系进行建模,即结合位置距离和高维特征距离来原创 2021-07-07 09:15:35 · 1164 阅读 · 0 评论 -
目标检测-大杂烩
文章目录两阶段(2-stage)检测模型R-CNN:非极大值抑制(NMS)Fast R-CNN: 共享卷积运算RoI PoolingFaster R-CNN关键在RPN网络1、2、anchor分配3、 softmax判定positive与negative4、bounding box regression5、Proposal Layer单次目标检测器YOLOSSDFPNcenter net指标Two-stage:用相应的Region Proposal算法(可以是传统算法,也可以是神经网络)从输入图片中生成原创 2021-03-31 22:44:28 · 412 阅读 · 0 评论 -
札记2
文章目录1. 介绍了解的神经网络LeNetAlexNetVGGGoogLeNetResNetDenseNet (2017)SENet (2017)分组卷积(Group convolution)深度可分离卷积(Depthwise separable convolution)SiamFC2. svm怎么用于回归3. 决策树如何回归4. PCAPca白化:5. 特征值分解、奇异值分解6. 深度学习 输出值变成Nan7. numpy实现maxpooling8. 激活函数、神经元死亡SigmoidReLULeaky原创 2021-03-31 18:19:52 · 397 阅读 · 0 评论 -
札记
文章目录1. 多标签分类怎么解决2. 什么是BN3. L1、L2 正则化区别4. 过拟合问题问题起源?如何解决?5. 偏差、方差6. 非线性回归怎么做7.ResNet 的特点8. 什么是 one-shot、zero-shot,区别9. 什么会导致梯度消失,爆炸,解决10. 什么是fine-tuning?11. 梯度下降法和牛顿法区别12. 卷积尺寸计算13. 空洞卷积14. FCN与CNN的区别15. SVM16. 直观解释一下拉格朗日乘子法1. 多标签分类怎么解决标签制作样本中出现的类别都为1,其原创 2021-03-30 20:42:35 · 195 阅读 · 0 评论 -
训练损失增大
学习率过大学习率太大,学下不去梯度忘清零 optimizer.zero_grad()正则化过度L1 L2和Dropout是防止过拟合用的,当训练集loss下不来时,就要考虑一下是不是正则化过度,导致模型欠拟合了。一般在刚开始是不需要加正则化的,过拟合后,再根据训练情况进行调整。如果一开始就正则化,那么就难以确定当前的模型结构设计是否正确了,而且调试起来也更加困难。https://blog.csdn.net/dl962454/article/details/109624917?utm_mediu原创 2021-03-05 21:39:29 · 1369 阅读 · 1 评论 -
image retrieval的Recall@k
模型会按照评分的从高到低,挑选K个回答。如果正确的回答在这K个当中,我们就认为这条测试样本预测正确。显然,K越大,事情越简单。首先,对于单一个查询图片,在系统中搜索它的k个最近邻的图片,如果返回的k张图片中有至少一张图片和查询图片属于同一个类,则该次查询的score记为1,否则记为0。Recall@k则是测试集中所有查询图片score的平均.def evaluate_emb(emb, labels): """Evaluate embeddings based on Recall@k."""原创 2021-03-05 11:39:24 · 2447 阅读 · 0 评论 -
目标检测之one stage :YOLO开山之作
YOLO网格化网络结构输出的含义坐标(x, y, w, h)confidence损失函数预测置信度过滤使用NMS非极大抑制生成预测框性能与小结性能不足优点网格化即将图片分成 7∗77*77∗7 的网格,网络输出张量为 batch_size∗7∗7∗30batch\_size*7*7*30batch_size∗7∗7∗30在Yolo中,如果一个物体的中心点,落在了某个格子中,那么这个格子将负责预测这个物体。以此取代滑窗网络结构输入图像大小为448∗448448*448448∗448,经过若干个原创 2021-01-29 12:33:26 · 395 阅读 · 0 评论 -
BP推导,普通版加矩阵版
BP推导,普通版加矩阵版普通版前向传播过程反向传播过程矩阵版前向传播用来计算整个卷积过程的输出值以及相应的误差值。反向传播则是想把误差值平摊至每个参数上,使得最终的输出值越来越逼近标签值。普通版以一个两层网络为例,绘图如下前向传播过程如下:激活函数为sigmoidδ(x)=11+e−x\delta(x) = \frac{1}{1+e^{-x}}δ(x)=1+e−x1第一层z1=w11x1+w13x2+b1a1=δ(z1)z_1 = w_{11}x_1 + w_{13}x_2 + b_1\原创 2021-01-23 22:52:09 · 191 阅读 · 2 评论 -
半监督学习之Noisy Student
基本结构半监督学习之伪标签学习https://blog.csdn.net/weixin_42764932/article/details/112910467和伪标签学习差不多为有标签和无标签的图片。使用有标签的数据、标准交叉熵损失训练了一个EfficientNet作为教师网络。用不添加噪音的教师网络,在无标签数据上生成伪标签,伪标签可以是soft label(持续分布),或者hard label(one-hot分布)。文章说软标签效果更好。在有标签和无标签数据下,使用交叉熵训练原创 2021-01-22 11:47:04 · 2596 阅读 · 1 评论 -
半监督学习之Mean teachers
半监督学习Mean teachers网络整体的架构包括两个部分student model和teacher model:student model的网络参数通过学习,梯度下降获得。teacher model的网络参数通过student model的网络参数的moving average得到。student model的网络参数更新方法:通过损失函数的梯度下降更新参数得到。其中损失函数包括两个部分:第一部分是有监督损失函数,保证有标签训练数据拟合;第二部分是无监督损失函数,主要是保原创 2021-01-22 11:13:29 · 3522 阅读 · 0 评论 -
无监督对比学习之左脚踩右脚的BYOL《Bootstrap your own latent A new approach to self-supervised Learning》
背景在表示学习中,我们现在采用的框架本质是通过一个view的表示去预测相同图像其他view,能预测对说明抓住了图像的本质特征。但在做这样的预测时会有坍缩(collapse)的风险,意思是全都变成一个表示,那也可以做到预测自己。对比学习为了解决这个问题,将表示预测问题转换为了正负例判别问题,这样就迫使模型的输出是多样的,避免坍缩。灵感如何不用负例,也能学到好的表示呢?如果共用encoder,用MSE作为损失,缩小相同图像不同view的距离,肯定会坍缩。那就把其中一个encoder变成随机初始化且固定下原创 2021-01-21 15:38:34 · 2391 阅读 · 3 评论 -
无监督对比学习之为啥正样本是同一张图的不同aug,负样本直接就是不同图及aug,不怕同类的不同图干扰吗?
有监督学习给定数据xi,i=0,1,2,nxx_i,i=0,1,2,n_xxi,i=0,1,2,nxyi,i=0,1,2,nyy_i,i=0,1,2,n_yyi,i=0,1,2,ny,即nxn_xnx个属于类别xxx的样本,nyn_yny个属于类别yyy的样本通过给定的数据标注信息学习到该数据分布下的内在特性,该方法能够work的内在原理是同一个label下所有(准确说是大多数的)数据具有相似的特征分布。无监督学习在Contrastive learning中,多数为无监督的情况,这时原创 2021-01-21 13:17:14 · 1916 阅读 · 1 评论 -
半监督学习之伪标签学习
定义一种名为半监督学习的方法,能从有标签(监督学习)和无标签数据(无监督学习)中共同习得模式为了训练一个监督学习的机器学习模型,我们必须要有带标签的数据。那这是否意味着无标签的数据对于诸如分类和回归之类的监督任务就无用了呢?当然不是! 除了使用额外数据进行数据分析,还可以将无标签数据和标签数据结合起来,一同训练半监督学习模型。该方法的主旨思想其实很简单。首先,在标签数据上训练模型,然后使用经过训练的模型来预测无标签数据的标签,从而创建伪标签。此外,将标签数据和新生成的伪标签数据结合起来作为新的训练数原创 2021-01-20 20:48:29 · 1511 阅读 · 0 评论 -
无监督对比学习之假装自己有监督的SwAV
前面讲到的MOCO、SimCLR把优化的方向主要放在增加负例上,费时费力,SwAV来了个返璞归真。。简要步骤每个batch输入数据为 x∈RN∗C∗H∗Wx\in R^{N*C*H*W}x∈RN∗C∗H∗W, 分别经过不同的Aug, 得到x1,x2x_1, x_2x1,x2将x1,x2x_1, x_2x1,x2输入网络中,得到输出z1,z2∈RN∗dz_1, z_2 \in R^{N*d}z1,z2∈RN∗d已知K个聚类中心,表示为C∈RK∗dC\in R^{K*d}C∈RK∗d,将原创 2021-01-19 16:57:48 · 6020 阅读 · 15 评论 -
无监督对比学习之不甘心的SimCLR v2
SimCLR v1详见https://blog.csdn.net/weixin_42764932/article/details/112787761在2020年中,Hinton组的Chen Ting同学又提出了SimCLR v2[4],主要做了以下改动:采用更深但维度略小的encoder,从 ResNet-50 (4×) 改到了 ResNet-152 (3×+SK),在1%的监督数据下提升了29个点采用更深的3层MLP,并在迁移到下游任务时保留第一层(以前是完全舍弃),在1%的监督数据下提升了14个点原创 2021-01-18 18:20:37 · 437 阅读 · 0 评论 -
无监督对比学习之师夷长技以制夷的MOCO v2《Improved Baselines with Momentum Contrastive Learning》
SimCLR凭借着几个trick和豪气冲天的GPU/TPU把MOCO干趴了扭头MOCO就用SimCLR的trick干了回去,SimCLR,你在TPU上练的死劲不管用了!MOCO v1详见https://blog.csdn.net/weixin_42764932/article/details/112768710MOCO v21. Projection Head咱也在encoder之后增加了一个非线性映射ImageNet linear classification accuracy:原创 2021-01-18 18:10:35 · 2167 阅读 · 1 评论 -
无监督对比学习之力大砖飞的SimCLR《A Simple Framework for Contrastive Learning of Visual Representations》
书接上回,何老师的MoCo被SimCLR偷袭了,上来就是7个点的提升SimCLR整的什么活儿?SimCLR基本流程如下,不赘述了不同于MOCO的两个编码器,SimCLR还是沿用了一个encoder(本文用的是ResNet-50)的传统方法,不过提出了几个创新点。1. 创新点一选取最优的数据增强组合方式,random (crop + flip + color jitter + grayscale).合起来增强Data augmentation对于训练好unsupervised contra原创 2021-01-18 17:33:01 · 2811 阅读 · 2 评论 -
无监督对比学习之MOCO 《Momentum Contrast for Unsupervised Visual Representation Learning》
无监督学习如果可以建立一种通用的无监督模型,经过海量无标签数据的学习后,可以习得一个强大的特征提取器,在面对新的任务,尤其是医疗影像等小样本任务时,也能提取到较好的特征。这就是无监督学习的意义。对比学习对比学习的概念很早就有了,它是无监督学习的一种方法,但真正成为热门方向是在2020年的2月份,Hinton组的Ting Chen提出了SimCLR,用该框架训练出的表示以7%的提升刷爆了之前的SOTA,甚至接近有监督模型的效果。对比学习不需要高细粒度的还原,它所记住的事物特征,不一定是像素级别的,而是原创 2021-01-18 13:40:09 · 12476 阅读 · 17 评论 -
RepVGG: Making VGG-style ConvNets Great Again
Abstract本文提出一种简单而强有力的CNN架构RepVGG,在推理阶段,它具有与VGG类似的架构,而在训练阶段,它则具有多分支架构体系,这种训练-推理解耦的架构设计源自一种称之为“重参数化(re-parameterization)”的技术。优势Fast:相比VGG,现有的多分支架构理论上具有更低的Flops,但推理速度并未更快。比如VGG16的参数量为EfficientNetB3的8.4倍,但在1080Ti上推理速度反而快1.8倍。这就意味着前者的计算密度是后者的15倍。Flops与推理速度原创 2021-01-16 12:20:22 · 780 阅读 · 1 评论 -
池化操作average pooling、max pooling、SoftPool、Spatial Pyramid Pooling(SPP)
池化作用(1) 增大感受野感受野就是一个像素对应的原来特征图的区域大小,假设最后一层特征图大小不变,在某种卷积setting下,要想看到原来大小为224*224的图像,就需要很多卷积层。而使用pooling也可以达到增大感受野的目的。(2) 实现不变性其中不变形性包括,平移不变性、旋转不变性和尺度不变性。由于pooling对特征图进行抽像,获取的是某个区域的特征,而不关心具体位置,这时当原来的特征图发生轻微的变化时,不影响最后的结果。(3) 容易优化降维、去除冗余信息、对特征进行压缩、简化网络复原创 2021-01-12 13:28:41 · 5274 阅读 · 1 评论 -
注意力之Non-local Neural Networks
Local & non-localLocal这个词主要是针对感受野(receptive field)来说的。以卷积操作为例,它的感受野大小就是卷积核大小,而我们一般都选用33,55之类的卷积核,它们只考虑局部区域,因此都是local的运算。同理,池化(Pooling)也是。而non-local指的就是感受野可以很大,不是一个局部领域,比如全连接就是non-local的,而且是global的。但是全连接带来了大量的参数,给优化带来困难。这也是卷积神经网络近年来流行的原因,考虑局部区域,参数大大减原创 2021-01-11 21:54:45 · 879 阅读 · 3 评论 -
注意力之spatial attention
spatial attentionchannel attention是对通道加权,spatial attention是对spatial加权Parameter-Free Spatial Attention Network for Person Re-Identificationfeature map 对通道求和获得H*W矩阵,然后reshape, softmax, reshape获得注意力矩阵。CBAM: Convolutional Block Attention Module既有channel原创 2021-01-06 12:27:38 · 19328 阅读 · 2 评论 -
注意力之Visual Object Tracking by Hierarchical Attention Siamese Network
SiamFCSiamFC的基本结构如下:即,将目标与待搜索区输入到孪生网络中,分别获得对应feature map,然后做互相关,就是将目标的feature map 作为卷积核,与之作卷积,获得响应图(heatmap)缺点 :应该找到与模板类似的候选对象,并且应该将正确的对象与所有这些候选对象区分开来。严重遮挡或背景杂乱的物体会导致意想不到的跟踪失败。所以需要为目标模板找到关键部位,即注意力机制。Visual Object Tracking by Hierarchical Attentio原创 2021-01-06 11:56:48 · 471 阅读 · 0 评论 -
注意力之细粒度图像分类Recurrent-Attention-CNN
循环注意力卷积神经网络(RA-CNN)发布时间:2017年细粒度图像分类概念细粒度图像分类与传统图像分类而言,细粒度图像分类中所需要进行分类的图像中的可判别区域(discriminative parts)往往只是在图像中很小的一块区域内。在传统的图像分类网络中,无论图像中的重要判别区域占整个图像的比重有多大,都只会对整张图片一视同仁的提取特征。因此,在一些判别区域占图像比重较小的一些图片,进行同样的特征提取及处理,大量不关注的background信息会被训练进去,增加了图像分类的难度,降低分类的准原创 2021-01-05 10:57:11 · 2494 阅读 · 1 评论 -
图注意力网络GAT
图卷积网络的推导本链接是推导过程GAT简而言之,图注意力网络就是将 图的邻接矩阵 模糊化,自适应地模糊化。流程简单来说就是将经过网络变换得到的样本的新嵌入,两两拼接,输入到网络中,计算注意力系数。输入数据为X∈RN∗FX\in R^{N*F}X∈RN∗F,FFF是特征维度, NNN是样本数。输出特征为H∈RN∗fH\in R^{N*f}H∈RN∗f,最终输出为Y∈RN∗CY\in R^{N*C}Y∈RN∗C, CCC为类别总数。令W∈RF∗fW\in R^{F*f}W∈RF∗f原创 2021-01-02 23:05:34 · 722 阅读 · 0 评论 -
深度学习--优化器
深度学习-优化器基本框架非自适应学习率SGDMomentumNesterov自适应学习率AdagradAdadeltaAdamAdamaxNadam小结这里是引用https://blog.csdn.net/u012759136/article/details/52302426/?ops_request_misc=&request_id=&biz_id=102&utm_term=sgd%2520adam&utm_medium=distribute.pc_search_res原创 2020-12-17 15:18:07 · 314 阅读 · 1 评论 -
2020-11-10
https://www.jiqizhixin.com/sota15大领域、127个任务,这里有最全的机器学习SOTA模型原创 2020-11-10 15:25:01 · 77 阅读 · 0 评论