自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 在深度学习训练过程中模型为什么会学习到捷径

模型学习到捷径的根本原因是它在优化过程中优先选择了最容易最短路径的特征,而这些特征可能并不代表任务的本质。通过改善数据集、引入正则化和设计更合理的模型结构,可以有效减少模型依赖捷径,进而提高模型的泛化能力。

2024-09-27 14:49:28 678

原创 MoCo中的字典

MoCo 中的字典是一个存储负样本表示的FIFO 队列,它通过结合动量编码器生成的 key 和队列化机制,确保负样本的数量充足、表示一致并具有多样性。减少对大 batch size 的依赖:通过跨 batch 存储负样本,MoCo 可以在小 batch size 下进行有效训练。保持负样本表示一致性:通过动量编码器的缓慢更新,确保字典中的负样本表示在训练中保持相对一致。提高负样本多样性:字典队列中的 key 是动态更新的,确保了负样本的多样性。

2024-09-26 20:31:47 801

原创 NCEloss与InfoNCEloss的区别

NCE Loss(Noise Contrastive Estimation Loss)和是两种常用的损失函数,主要应用在对比学习和自监督学习任务中。它们的区别在于应用场景和具体实现细节。

2024-09-26 18:15:44 421

原创 对比学习中,什么是样本的一致性,为什么要保证样本的一致性?

在对比学习(contrastive learning)中,指的是在不同的增强(transformation)下,模型仍然能够将同一个原始样本的不同变体视为同一个类别或概念。例如,对于一张图片,无论是经过旋转、裁剪、缩放还是颜色变换后,模型应该学会识别这些不同的版本都属于同一个样本(或标签),保持它们之间的特征一致性。

2024-09-26 14:32:40 276

原创 对比学习训练是如何进行的

对比学习(Contrastive Learning)是一种自监督学习的方法,旨在通过拉近相似样本的表示、拉远不相似样本的表示来学习特征表示。在训练过程中,模型并不依赖标签,而是通过样本之间的相似性进行学习。

2024-09-25 12:32:51 636

原创 残差块的depth degradation effect

在于通过跳跃连接和恒等映射,缓解了深层网络中的梯度消失和性能退化问题。它确保随着网络深度的增加,模型能够稳定地学习更复杂的特征,而不会因为深度过大导致训练误差或测试误差增大。因此,残差网络成为了深度学习中训练非常深层神经网络的关键技术。通过引入残差块,网络可以在大幅度增加深度的情况下,继续保持较好的训练效果和模型性能。

2024-09-23 17:14:10 565

原创 半监督学习---伪标签

*伪标签(Pseudo Labels)**是半监督学习(semi-supervised learning)中的一种常用策略,通常用于将无标签数据转化为有标签数据,以此来提升模型的性能。伪标签通过使用一个初步训练的模型(通常是基于部分有标签数据训练的模型)对无标签数据进行预测,并将这些预测标签作为该无标签数据的“伪标签”,从而让无标签数据参与模型的进一步训练。

2024-09-23 15:49:11 432

原创 Fast-RCNN模型框架在经过全连接层后再如何处理

对每个候选区域进行分类,输出该区域属于某个预定义类别的概率分布,包括背景类。分类分支的输出维度为。,用于对候选区域的边界框进行微调(即进一步修正区域的精确位置)。该分支输出的是每个类别对应的。这两个输出(分类和边界框回归)共同完成对每个候选区域的分类和边界框定位,整个过程相对高效。(x, y, w, h),用于调整边界框的坐标和尺寸。同时,全连接层的特征向量还被送入。全连接层输出的特征向量被送入。是类别的数量,额外的。

2024-09-23 10:46:21 217

原创 nn.Embedding

在这个代码片段中,类继承了类,并在__init__方法中通过调用来初始化父类。由于没有定义新的方法,默认情况下它会使用的行为来提供返回值。

2024-09-22 20:15:57 168

原创 nn.Embedding

在这个代码片段中,类继承了类,并在__init__方法中通过调用来初始化父类。由于没有定义新的方法,默认情况下它会使用的行为来提供返回值。

2024-09-22 20:15:05 394

原创 自注意力与多头自注意力的区别

单头 vs. 多头:自注意力机制是单一的,模型只能从一个角度计算注意力,而多头自注意力机制通过多个独立的注意力头进行计算,使得模型能够捕捉更丰富的特征。子空间处理:多头机制将输入划分为多个低维子空间,使得每个注意力头可以专注于输入的不同部分,从而提升模型对不同特征的表达能力。计算复杂度:虽然多头自注意力的计算量较大,但通过并行计算多个注意力头,提升了模型的表现力,而不会显著增加计算开销。

2024-09-20 18:45:36 483

原创 大尺寸卷积核的优缺点

尤其是在数据集较小或者数据多样性不足的情况下,使用大卷积核的模型可能更容易适应训练数据,但在测试数据上表现不佳。大尺寸卷积核能够捕获更大的上下文信息,拥有更广的感受野。它可以一次性处理更大区域的特征信息,尤其在处理复杂的视觉任务时(如场景理解、目标检测等),可以更好地捕获全局信息。卷积操作的计算量随着卷积核尺寸的平方增长,使用较大的卷积核会显著增加模型的计算开销和内存消耗,尤其在深层网络中影响更大。在不增加网络深度的情况下,通过大卷积核一次性提取更多全局信息,减少对堆叠更多小卷积核的需求。

2024-09-19 14:41:52 335

原创 多模态大模型中的图片文本对齐

使用不同的编码器分别提取文本和图片的特征。将文本和图片特征投射到共同的语义空间中。通过对比学习损失函数使得相关的文本和图片对在共同空间中距离更近,而不相关的对距离更远。通过大规模数据集进行预训练,模型能够学习如何在不同模态间进行对齐。对齐的实现对于多模态模型的性能至关重要,特别是在视觉-语言任务中的应用,例如图像生成、描述生成、图像搜索等。

2024-09-13 15:48:12 1191

原创 模型训练与推理的过程

模型训练和推理之间的联系在于,训练是模型学习的过程,而推理是模型应用的过程。两者在整个机器学习工作流中相辅相成。

2024-09-13 14:55:37 395

原创 高光谱图像处理,使其适用于深度学习任务

高光谱图像的处理涉及从降维、归一化等基础步骤,到图像块切割、数据增强等操作,最终通过深度学习模型进行检测。选择适合的模型架构、输入格式和后处理方法可以有效提高高光谱图像在深度学习任务中的表现。

2024-09-10 16:41:19 1213

原创 大模型预训练

大模型预训练是深度学习领域的一项关键技术,通过在大规模数据上进行初步训练,让模型学习通用的特征表示,进而在下游任务中实现更高的性能。无论是自然语言处理还是计算机视觉,预训练模型都大大提高了模型的效率和泛化能力,同时减少了对标注数据的依赖。在未来,随着计算资源和数据集的进一步扩大,预训练技术将在更多领域中发挥重要作用。

2024-09-10 16:32:52 828

原创 Autoencoder自编码

自编码器是神经网络中的重要工具,能够通过学习数据的有效表示来实现降维、特征提取、去噪和异常检测等任务。它的结构简单,但可以通过不同的变种和扩展,适应各种复杂的应用场景,如变分自编码器(VAE)和去噪自编码器。

2024-09-10 15:59:10 383

原创 微调大模型基本方法

微调(fine-tuning)大模型是指在已经训练好的预训练模型上进行针对特定任务的再训练,以便让模型更好地适应该任务的需求。微调通常比从头开始训练模型更有效率,特别是对于需要大量数据和计算资源的大模型。

2024-09-09 08:02:55 403

原创 在模型训练过程中,如何保证每次训练完后初始参数是相同的

模型调参数训练中,为了确保每次训练的初始参数相同,我们通常需要设置随机数种子(random seed)。这是因为神经网络的初始权重通常是随机初始化的,这会导致每次训练的初始状态不同,从而影响模型的训练结果。通过设置随机数种子,我们可以使随机数生成器在每次运行时产生相同的随机数序列,从而确保神经网络的初始参数相同。通过设置随机数种子,我们可以确保每次训练的初始参数相同,从而使实验结果具有可重复性。请根据使用的深度学习框架选择合适的随机数种子设置方法。

2024-09-03 21:05:04 194

原创 深度学习----模型评估

首先我们需要清楚,如果你想要买一部手机或者买一部电脑,你会怎样挑选?难道只买贵的?当然,理性的消费往往是理性地综合产品各种性能的评估,比如:我们不仅要看手机的处理器性能如何,也要考虑手机的存储空间,手机的前置摄像头,后置摄像头像素如何,手机内部图像处理的功能如何等等。因此。

2024-09-02 14:05:39 502

原创 Envi实验六--实验报告

低通滤波处理高斯噪声中的bandR与椒盐噪声中的bandR如下图所示,从左到右依次为:原高斯噪声,原椒盐噪声,lowpass后的高斯噪声,lowpass后的椒盐噪声。直接对数据Ⅵ使用Sobel进行锐化,然后原始图像+锐化后图像作为结果下图从左到右依次为原图,Sobel锐化后的图像,原图+锐化后的图像。使用定向滤波对数据Ⅰ处理,与上面相同,如下图所示,从左到右依次为原图,处理后的图像,原图+处理后的图像。与上面相同,只不过换用拉普拉斯计算,下图从左到右依次为原图,拉普拉斯算子处理后的,原图+处理后的图片。

2024-08-05 16:01:12 964 1

原创 Envi实验五--实验报告

答:1.蓝色对应的H:100~124,将绿色地物的波段范围改为蓝色天空的波段范围即可2.HSV颜色空间的模型对应于圆柱坐标系中的一个圆锥形子集,圆锥的顶面对应于V=1.它包含RGB模型中的R=1,G=1,B=1三个面,所代表的颜色较亮。绿色对应的V:43-255。答:HSV需要输入图像的数据是有值域范围的,HSV的值域分别为0°-360°,0%-100%,0%-100%。答:(float(b4)-float(b3))/(float(b4)+float(b3))的计算结果和ENVI菜单的NDVI结果相同。

2024-07-29 17:31:58 1106

原创 Envi实验三----实验报告

答:Scoll、Image、Zoom的图像大小范围不同,全景窗口Scoll拥有最多数量的灰度级,图像窗口Image次之,放大窗口Zoom最少,所以三个窗口对应的累计%2和累计%98的灰度级不同,拉伸的效果就不同。:假彩色合成是指多光谱遥感图像彩色合成处理时,如果参与合成的三个波段的波长与对应的红、绿、蓝三种原色的波长不同,那么合成图像的颜色就不可能是地面景物的真是颜色,这种合成就是假彩色合成。图像拉伸包括:线性拉伸,2%拉伸,高斯拉伸,平方根拉伸,交互拉伸等。直方图值集中在图像左侧,图像较暗。

2024-07-21 09:15:30 876

原创 信息熵,KL散度,JS散度与Wasserstein距离----GAN到WGAN的进化之路

因为生成器的初始参数是随机初始化的,所以它什么都没有学习到,输入一系列采样得到的向量给它,它的输出都是些随机、混乱的图片,然后我们根据真实的数据送入判别器与生成的数据做对比,我们把真正的图片标 1,生成器产生出来的图片都标 0。网络框架如下图所示。其实到这里我们不难看出,判别器的训练目标是看到真实数据就给它比较高的分数,看到生成的数据就给它比较低的分数,我们可以把它当做是一个优化问题,具体来说,我们要训练一个判别器,其可以最大化一个目标函数,当然如果我们最小化它就可以称它为。生成的事物是真实的还是生成的;

2024-07-16 18:24:47 1236 6

原创 自监督学习

在机器学习范畴中,可以分为有监督学习,无监督学习,有监督学习顾名思义就是有“监督者”–标签来“监督”学习的好坏;无监督学习,顾名思义就是没有“监督者”–标签,来“监督”学习的好坏,所以有监督学习和无监督学习最大的区别就是有无“监督者”–标签。Yann LeCun最初在2019年4月在FaceBook发帖第一次提出了自监督学习这个词,自监督学习无需要标签,主要利用代理任务(pretext)来从大规模的无监督数据中找到自身的监督数据。

2024-07-10 11:37:06 301 1

原创 网络训练过程中为什么要划分batch

在计算梯度的时候,并不是对所有数据的损失 L 计算梯度,而是把所有的数据分成一个一个的批量(batch),如下图所示。每个批量的大小是 B ,即带有 B 笔数据。每次在更新参数的时候,会去取出 B 笔数据用来计算出损失和梯度更新参数。遍历所有批量的过程称为一个回合(epoch)。事实上,在把数据分为批量的时候,我们还会进行随机打乱(shuffle)。随机打乱有很多不同的做法,一个常见的做法是在每一个回合开始之前重新划分批量,也就是说,每个回合的批量的数据都不一样。

2024-07-05 18:02:16 563

原创 网络训练过程中有关梯度产生的问题

在深度神经网络训练过程中,反向传播会计算梯度,并且默认情况下这些梯度会累积在各个参数的梯度缓存(例如PyTorch中的param.grad)中。如果不在每次反向传播之前清零梯度,这些累积的梯度会导致下一个数据在反向传播更新参数时使用错误的梯度值,从而影响训练效果。在反向传播过程中,计算得到每个参数的梯度,这些梯度存储在参数的梯度属性中。2·在长时间不清零梯度的情况下,梯度值可能变得非常大,导致模型参数更新过大,训练过程不稳定,甚至可能导致梯度爆炸。例如,在处理非常大的模型或数据集时,可以使用梯度累积技巧。

2024-07-05 17:41:18 802

原创 RCNN全家桶

RCNN利用传统的目标检测的思想,将目标检测当做分类问题进行处理,即提取后选取,对后选取的目标进行分类。具体包括以下4步:生成候选区,对每个候选区进行特征提取,对提取的特征进行分类,选择与目标拟合度最好的候选框。RCNN的缺点:(1)训练和测试速度慢。(2)输入CNN的候选区域尺寸是固定的,精度降低。(3)候选区域需要提前提取并保存,占用的空间很大。

2024-06-19 11:43:41 334

原创 one stage与two stage

对于one stage,如YOLO系列,对于给定的图像所需要识别的对象,只需要回归出其边框的一个对角的(x,y)与其类别即可。如图中所示,只需得到输出结果中的边框的一个对角的两个坐标即可,所以可以直接回归得到(如输出结果的边框中的左上角点坐标,与右下角点坐标)。其优点:速度快;避免背景错误产生false positives;学到物体的泛化特征。其缺点:精度低(定位、检出率);小物体的检测效果不好。

2024-06-18 15:53:01 136

原创 目标检测中SIFT,HOG,DPM分别是什么

目标检测是计算机视觉中的一个重要任务,主要用于识别和定位图像或视频中的目标物体。SIFT(尺度不变特征变换)、HOG(方向梯度直方图)和DPM(Deformable Part Model)是目标检测中常用的三种方法。

2024-05-20 14:08:26 374

原创 目标检测网络模型种类

目标检测是一种计算机视觉任务,其目标是识别和定位图像或视频中的对象。为了实现目标检测,研究人员开发了多种网络模型,这些模型可以大致分为两类:单阶段(single-stage)模型和两阶段(two-stage)模型。

2024-05-20 01:26:42 493

原创 批量复制特定文件后缀的文件

其中/path/to/source/*.txt为源文件路径,.txt可以改成想要复制的目标文件后缀;/path/to/destination为目标文件夹路径,即想要转进的文件夹路径。

2024-05-12 10:14:57 274

原创 transformer代码实现

对于输入句子,汉字之间需要加空格。

2024-05-08 13:11:04 1506

原创 self attention在单头转多头中,如何将q,k,v分裂

在单头转多头中,将Q(查询)、K(键)和V(值)分裂是实现self-attention的关键步骤之一。这个过程可以通过线性变换来完成。

2024-04-19 20:25:34 564

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除