
深度学习
文章平均质量分 57
记录小白学习深度学习的过程
肆——
记录并分享自己学到的一些知识的菜鸟
展开
-
深度学习笔记
弱监督语义分割通过利用更简单的标注信息(如图像级标注、物体点标注、物体框标注等)来训练模型,从而实现对图像中物体的像素级预测。语义亲和力在计算机视觉中,特别是在语义分割任务中,通过定义标签亲和力矩阵,并将其与语义标签联系起来,可以辅助训练语义分割网络,提高分割的精度。目标检测(Object Dectection)的任务是找出图像中所有感兴趣的目标(物体),确定他们的类别和位置。在自然语言处理中,语义亲和力可以帮助理解文本中的词汇和句子之间的关系,从而提升文本分析的准确性。3.目标可能有各种不同的形状。原创 2025-03-14 21:09:04 · 195 阅读 · 0 评论 -
深度学习笔记——验证集和测试集的区别
验证集和测试集在机器学习中扮演着不同的角色:验证集用于模型调参和选择,而测试集用于最终评估模型的泛化能力。测试集:用于评估模型在未见过的数据上的泛化能力,即模型在实际应用中的表现。测试集:在模型训练和验证完成后使用,用于最终评估模型的性能。验证集:通常从训练集中划分出一部分数据,不参与模型的训练,但在训练过程中用于评估模型的性能。测试集:用于最终评估模型的泛化能力,其结果应尽可能无偏,反映模型在真实世界应用场景下的表现。最后,使用测试集评估模型在未见过的数据上的性能。原创 2025-03-12 16:52:25 · 604 阅读 · 0 评论 -
深度学习笔记——Resnet和迁移学习
梯度爆炸是指在训练深度神经网络时,通过多层传递的梯度变得非常大,导致权重更新过大,从而使得网络权重的值变得非常大或非常小,这会导致模型的输出变得不稳定。注意力机制(Attention Mechanism)是一种在深度学习模型中模拟人类注意力的机制,它允许模型在处理信息时能够聚焦于当前任务最相关的部分。2.在传统的 CNN 中,每个卷积层试图学习输入与输出之间的映射,即f(x)残差块试图学习输入与输出之间的残差映射,即:H(x)=f(x)-x。最后H(x)与输入x相加,得到输出f(x)=H(x)+x。原创 2025-03-09 16:23:39 · 287 阅读 · 0 评论 -
深度学习笔记——CNN卷积神经网络
它的核心思想是利用卷积层来提取输入数据的特征,并且能够自动学习到这些特征。表示卷积操作时不进行任何边缘填充,导致输出尺寸缩小。空间不变性:由于权重共享,卷积层能够检测到输入数据中的位置不变特征,即无论特征在输入数据的哪个位置出现,卷积层都能检测到。池化层:通常位于卷积层之后,用于降低数据的空间维度,减少参数数量和计算量,同时增强特征的不变性。全连接层:在网络的末端,将卷积层和池化层提取的特征映射到最终的输出,例如分类标签。共享:同一个卷积核的权重在整个输入数据上是共享的,这大大减少了模型的参数数量。原创 2025-03-08 17:47:58 · 259 阅读 · 0 评论 -
深度学习笔记——神经网络
模拟生物神经元,人工神经元有1个或者多个输入(模拟多个树突或者多个神经元向该神经元传递神经冲动);线性层(Linear Layer)又称全连接层(Full-connected Layer),其每个神经元与上一层所有神经元相连,实现对前一层的线性组合/线性变换。每个神经元都和前一层中的所有神经元相连,每个神经元的计算方式是对上一层的加权求和的过程。ReLU,全称为:Rectified Linear Unit,是一种人工神经网络中常用的激活函数,通常意义下,其指代数学中的斜坡函数,即f(x)=max(0,x)原创 2025-03-07 23:32:48 · 921 阅读 · 0 评论 -
深度学习笔记——基础部分
通过使用图像处理、机器学习、模式识别和深度学习等技术,计算机视觉系统能够识别和处理图像和视频中的对象、场景和事件,执行任务如图像分类、目标检测等,并在自动驾驶、监控、机器人导航等多个领域有着广泛的应用。而在深度学习中,特征提取是自动进行的,通过多层神经网络结构直接从原始数据(也可能需要初步处理)中学习复杂特征,减少了对人工干预的依赖,使得模型能够处理更加复杂的数据和任务。如果两个tensor的维度不同,则在维度较小的tensor的前面增加维度,使它们维度相等。tensor维度不等且其中一个维度为1。原创 2025-03-07 20:40:39 · 341 阅读 · 0 评论 -
深度学习代码解读——自用
parser.add_argument('--resume', default='init_weights/deeplab-resnet.pth.tar') # 预训练权重。{'params': model.get_10x_lr_params(), 'lr': args.lr * 10} # 分类头高学习率。通过多级伪掩码的融合,可以提升最终分割结果的精度和鲁棒性。{'params': model.get_1x_lr_params(), 'lr': args.lr}, # 骨干网络低学习率。原创 2025-03-04 22:58:11 · 1309 阅读 · 0 评论 -
深度学习代码分析——自用
{'params': param_groups[2], 'lr': 10*args.lr, 'weight_decay': args.wt_dec}, # 分类头(高学习率){'params': param_groups[0], 'lr': args.lr, 'weight_decay': args.wt_dec}, # 主干网络(低学习率)avg_meter = pyutils.AverageMeter('loss', 'avg_ep_EM', 'avg_ep_acc') # 统计训练指标。原创 2025-03-03 20:20:04 · 880 阅读 · 0 评论 -
代码的解读——自用
利用分类模型生成 3 种级别的伪分割掩码(如 CAM、边界增强掩码等)。:使用伪掩码训练 DeepLab v3+ 分割模型,完成像素级分割任务。:DeepLab v3+ 的预训练权重路径(ImageNet 预训练)。:训练一个基于 ResNet38 的多标签分类模型,生成图像级标签。:使用伪掩码训练 DeepLab v3+ 分割模型,实现像素级预测。:利用 Stage1 的模型生成 3 种级别的伪分割掩码。:加载 Stage1 的模型权重(用于初始化部分参数)。:Stage1 训练好的分类模型权重路径。原创 2025-03-02 23:07:26 · 785 阅读 · 0 评论 -
一些阅读医学图像切割的论文时常用到的专有词汇
是一种重要的机器学习方法,其核心在于通过已知的输入特征来预测对应的标签。训练数据没有外部给定的标签,但是模型可以通过一些辅助任务(pretext)来自动生成一些内部的标签,然后用这些内部标签来训练模型,从而学习到数据的内在表示(representation),再用这些表示来做下游任务(downstream),例如在图像上做旋转预测或遮挡恢复等辅助任务,然后用得到的特征向量来做分类或检测等下游任务。训练数据都有完整和准确的标签,模型通过学习输入数据和标签之间的映射关系来完成特定的任务,例如分类、回归等。原创 2025-03-02 22:56:27 · 746 阅读 · 0 评论 -
深度学习笔记——线性回归的从0开始实现
三种图像分割任务(语义、实例和全景分割)为图像中的各个像素分配标签,以标记图像中不同对象和区域的特定边界和形状,并使用颜色、对比度、图像中的位置和其他属性等信息对它们进行分类。而GPU并行计算的能力需要CUDA借助其自带的编程接口和工具,比如C/C++语言来编写并行计算程序,并通过CUDA编译器将程序转化为可以在英NVIDIA GPU上执行的机器码快速运行。(英语:Hyperparameter)是事先给定的,用来控制学习过程的参数。在深度学习中,超参数有:学习速率,迭代次数,层数,每层神经元的个数等等。原创 2025-03-02 22:56:03 · 1048 阅读 · 0 评论 -
深度学习笔记——线性回归,基础优化方法
可以看作是单层神经网络,神经网络源于神经科学,与真实的神经元类似。参数学习:训练损失,最小化损失来学习参数。选择学习率:学习率不能太大,也不能太小。选择批量大小:不能太大,也不能太小。收集训练:数据越多越好。显示解:将偏差加入权重。原创 2025-02-27 00:16:34 · 101 阅读 · 0 评论 -
深度学习笔记数学方面——矩阵计算,自动求导
9.梯度是一个向量,是一个n元函数f关于n个变量的偏导数,梯度会指向各点处的函数值降低的方向。更严格的讲,梯度指示的方向是各点处的函数值减少最多的方向。深度学习中, 神经网络的主要任务是在学习时找到最优的参数(权重和偏置),这个最优参数也就是损失函数最小时的参数。但是,一般情况下,损失函数比较复杂,参数也很多,无法确定在哪里取得最小值。该框架具备高度可扩展性,可以进行快速的模型训练,并支持灵活的编程模型和多种语言。4.自动求导,计算一个函数在指定值上的导数,有别于符号求导,数值求导(高数中的)原创 2025-02-26 22:55:38 · 289 阅读 · 0 评论 -
深度学习笔记线性代数方面,记录一些每日学习到的知识
我们知道距离的定义是一个宽泛的概念,只要满足非负、自反、三角不等式就可以称之为距离。torch.arange()为左闭右开,即[start, end),torch.range()为左闭右闭,即[start, end],用于根据步长创建一维tensor。jupyter:Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享程序文档,支持实时代码,数学方程,可视化和。torch:Torch是一个有大量机器学习算法支持的科学计算框架,是一个与Numpy类似的张量(Tensor)操作库。原创 2025-02-25 23:47:49 · 288 阅读 · 0 评论 -
深度学习笔记——数据操作
NumPy(Numerical Python) :是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。标量是 0维空间中的一个点 ,向量是 一维空间中的一条线 ,矩阵是 二维空间的一个面 ,三维张量 是三维空间中的一个体。也就是说,向量是由标量组成的,矩阵是向量组成的,张量是矩阵组成的。广播机制:广播(Broadcast)是numpy 对不同形状(shape)的数组进行数值计算的方式, 对数组的算术运算通常在相应的元素上进行。原创 2025-02-24 22:11:36 · 274 阅读 · 0 评论