自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 池化层(Pooling)

通常当我们处理图像时,我们希望逐渐降低隐藏表示的空间分辨率、聚集信息,这样随着我们在神经网络中层叠的上升,每个神经元对其敏感的感受野(输入)就越大。而我们的机器学习任务通常会跟全局图像的问题有关,所以我们最后一层的神经元应该对整个输入的全局敏感。通过逐渐聚合信息,生成越来越粗糙的映射,最终实现学习全局表示的目标,同时将卷积图层的所有优势保留在中间层。此外,当检测较低层的特征时,我们通常希望这些特征保持某种程度的平移不变性。故池化层有两个目的:降低卷积层对位置的敏感性,降低对空间降采样表示的敏感性。

2024-05-25 16:26:08 189

原创 【轻量级网络】经典网络模型--ShuffleNet详解

ShuffleNet使用是一种计算效率极高的CNN架构,它是专门为计算能力非常有限的移动设备设计的;通过逐点分组卷积(Pointwise Group Convolution)和通道洗牌(Channel Shuffle)两种新运算,在保持精度的同时大大降低了计算成本。

2024-05-25 11:03:00 434

原创 前向传播、反向传播和计算图

为简单起见,隐藏层不包括偏置项。,中间变量为:其中是隐藏层的权重参数。再通过激活函数后,隐藏激活向量:隐藏变量h也是一个中间变量。假设输出层的参数只有权重,我们可以得到输出层变量,它是一个长度为q的向量。

2024-05-23 21:46:01 311 1

原创 暂退法(Dropout)

当面对更多的特征而样本不足时,线性模型往往会过拟合。相反,当给出更多样本而不是特征,通常线性模型不会过拟合。不幸的是,线性模型泛化的可靠性是有代价的。简单地说,线性模型没有考虑到特征之间的交互作用。对于每个特征,线性模型必须指定正的或负的权重,而忽略其他特征。泛化性和灵活性之间的这种基本权衡被描述为偏差-方差权衡(bias-variance tradeoff)。线性模型有很高的偏差:它们只能表示一小类函数。然而,这些模型的方差很低:它们在不同的随机数据样本上可以得出相似的结果。

2024-05-23 09:52:55 305 1

原创 权重衰减说明

这项技术通过函数与零的距离来衡量函数的复杂度,因为在所有函数f中,函数f=0(所以输入都得到值0)在某种意义上是最简单的。要保证权重向量比较小,最常用的方法是将其范数作为惩罚项加到最小化损失的问题中。将原来的训练模型最小化训练标签上的预测损失,调整为最小化预测损失和惩罚项之和。现在,如果我们的权重向量增长的太大,我们的学习算法可能会集中于最小化权重范数。通过平方范数,我们去掉平方根,留下权重向量每个分量的平方和。这使得惩罚的导数很容易计算:导数的和等于和的导数。中的权重向量的某个范数来度量其复杂性,例如。

2024-05-22 23:24:23 206 1

原创 《动手学深度学习》学习笔记

定义模型,即要将输出与输入关联起来。其中X为向量,w为权重,b为偏置。由广播机制,如果将b加入到向量中,则会加到每个向量中。"""线性回归模型""""""小批量随机梯度下降"""b+

2024-05-21 19:43:23 1356

原创 《动手学深度学习》学习笔记

回归(regression)是能为一个或多个自变量与因变量之间关系建模的一类方法。在自然科学和社会科学领域,回归经常用来表示输入和输出直接的关系。在机器学习中的大多数任务通常与预测有关。当我们想要预测一个数值时,就会涉及到回归问题。常见的例子包括:预测价格(房屋、股票等)、预测住院时间(针对住院病人等)、预测需求(零销售量等)。但并不是所有的预测都是回归问题。在后面的章节中,我们将介绍分类问题。分类问题的目标是预测数据属于一组类别中的哪一类。

2024-05-21 16:34:25 1745

原创 CNN介绍

卷积神经网络(convolutional neural network,CNN),是一类包含卷积计算且具有深度结构的前馈神经网络。卷积神经网络是受生物学上感受野(Receptive Field)的机制而提出的。卷积神经网络专门用来处理具有类似网格结构的数据的神经网络。例如,时间序列数据(可以认为是在时间轴上有规律地采样形成的一维网格)和图像数据(可以看作是二维的像素网格)。

2024-05-20 14:48:47 790 2

原创 Transfer learning strategy

在我们的例子中,该模型将本文预处理后的图像作为输入,并使用深度学习来预测渗透率。然而,在现实世界的应用中,获取大量用于训练模型的标记数据可能具有挑战性,并且每个人物可能具有不同的数据分布和特征表示。迁移学习的优势在于它能显著减少训练新任务所需的数据量,加快模型的训练过程,并提高具有有限或相似数据的任务的性能。值得注意的是,迁移学习的成功很大程度上取决于预训练模型与新任务之间的相关性。因此,当应用迁移学习时,仔细考虑任务之间的相关性是必要的,沿着选择适当的预训练模型和迁移学习策略。

2024-05-17 09:58:15 129

原创 Swin transformer

W-MSA表示窗口内的多头自注意,将窗口视为独立的全局背景(context),用于计算token之间的成对注意。Swin Transformer通过最初处理小尺寸的块来构建分层表示,如绿色轮廓所示,并逐渐合并来自更深Swin Transformer层的相邻块(图6(a)),这与VIT(图6(b))完全不同。对于较大的hw,全局自注意力计算通常难以承受,而基于窗口的自我关注计算则可以扩展。基于窗口的多头自注意力(W-MSA)模块中,基于非重叠局部窗口的Swin Transformer的计算复杂度由下式给出,

2024-05-17 09:47:56 1610

原创 Transformer原理个人理解

这在训练的时候有效,因为训练的时候每次我们是将target数据完整输入进decoder中地,预测时不需要,预测的时候我们只能得到前一时刻预测出的输出。但是如果输入的序列太长,则是截取左边的内容,把多余的直接舍弃。Output如图所示,首先经过一次线性变换(线性变换层是一个简单的全连接神经网络,它可以把解码组件产生的向量投射到一个比它大得多的,被称为对数几率的向量里),然后Softmax得到输出的概率分布(softmax层会把向量变成概率),然后通过词典,输出概率最大的对应单词作为预测输出。

2024-05-16 20:13:19 707 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除