- 博客(184)
- 收藏
- 关注
原创 Class45循环神经网络RNN
梯度裁剪是一种控制梯度大小的方法,主要用于训练深度神经网络时,防止。(如文本、语音、时间序列)长度可变,且前后元素之间存在依赖关系。(如全连接网络、卷积网络)处理输入是固定大小的向量,而。潜变量自回归模型中,使用潜变量ht总结过去信息。RNN的核心思想:对序列数据进行建模,通过。”,用于当前时刻的预测。
2025-08-27 16:19:41
162
原创 Class44语言模型
语言模型是自然语言处理(NLP)中的核心基础技术之一,它的主要任务是对语言序列进行建模,估计一个词序列出现的概率,或者预测下一个最有可能出现的词。
2025-08-27 13:43:06
169
原创 Class42时序模型
时序模型是用于处理时间序列数据的模型,主要目标是从时间相关的数据中提取规律,用于分析、预测、异常检测、控制或生成序列。它们广泛应用于金融、气象、交通、语音识别、自然语言处理等领域。在时间t观察到xt,那么得到T个不独立的随机变量(x1,…2.大地震发生后,很可能会有几次较小的余震。1.电影的评价随着时间的变化而变化。每一个点,都跟之前所有的点相关。
2025-08-23 18:51:09
270
原创 Class41样式迁移
选择多层卷积层(如 conv1_1, conv2_1, conv3_1, conv4_1, conv5_1)提取样式特征。网络的低层卷积层提取纹理和边缘等低层特征(与样式密切相关),高层卷积层提取物体轮廓和语义信息(与内容相关)。使用 Gram 矩阵(Gram Matrix) 表示样式,它反映了各特征图之间的相关性(即颜色和纹理分布)。通过最小化生成图像与样式图像在这些 Gram 矩阵上的差异,实现样式迁移。通过比较生成图像与内容图像的这一层特征差异,保持生成图像的主要结构。
2025-08-23 13:36:32
301
原创 Class40全连接神经网络FCN
FCN 是一种专门用于 图像语义分割 的卷积神经网络。可以接受 任意大小的输入图像,输出与输入大小对应的 像素级预测。没有全连接层,所有层都是卷积层或反卷积(上采样)层。:输入原图 → 输出分割图,整个网络可联合优化。:例如 VGG、ResNet,快速提升性能。输出的是每个像素属于某个类别的概率分布。:直接得到每个像素的类别。:因为没有全连接层。
2025-08-22 17:57:17
122
原创 Class35R-CNN
Faster R-CNN是R-CNN系列的第三代目标检测算法,提出于 2015 年。它在Fast R-CNN的基础上解决了一个关键瓶颈:Fast R-CNN仍然依赖外部算法生成候选区域(ROI),速度受限,无法实时。Mask R-CNN 是 Faster R-CNN 的扩展版本,提出于 2017 年。它的目标是解决 实例分割问题。在 Faster R-CNN 的基础上增加一个分支,生成每个ROI的二值掩码(mask)使用多任务损失,网络可以直接端到端训练,不需要R-CNN 的三阶段训练。
2025-08-15 16:54:10
566
原创 Class34锚框
为每个边缘框找一个锚框,先从最高值出发,找到X23,将X23所在的行和列都删除,再在没删除下面找下一个最大值;将整张图片分割成3x3的网格,被检测的真实物体及其边缘框在第2个网格中。锚框有3种,分别为100x100像素、100x50像素和50x100像素,一个网格里有3个,9个网格则一共有3*9=27个锚框。在目标检测中,用锚框预测物体位置时,模型通常会对同一个物体给出多个重叠的候选框,并且每个框有一个置信度分数。边缘框,是由人工标注得到的,图片中的一个物体只有一个边缘框。1.按置信度从高到低排序。
2025-08-12 16:29:41
359
原创 Class31微调
如果目标数据集中的数据类型与源数据集数据相符,那么源数据集就相当于预训练,可以直接拿来用,但是最后一层的标号需要更改为与目标数据集一致。越靠近底层,学习的内容越基础,越靠近上层,学习的内容越贴近标号。第一层到倒数第二层都相当于在做特征抽取。
2025-08-07 12:18:16
268
原创 Class30代码实现
”“用多GPU进行小批量训练”“”# 计算当前batch的预测准确数。# 计算当前batch的总损失。# 把数据移到第一个GPU上。# 将数据分发给所有GPU。# 判断是否为多个GPU。
2025-08-06 22:06:48
249
原创 Class30数据增广
改变色调,饱和度,明亮度(e.g.[0.5,1.5])随机高宽比(e.g.[3/4,4/3])增加一个已有数据集,使得有更多的多样性。随机大小(e.g.[8%,100%])从图片中切割一块,然后变形到固定形状。在语言里加入各种不同的背景噪音。在图片里改变图片的颜色和形状。
2025-08-06 18:55:52
200
原创 Class29ResNet
残差块可以使得很深的网络更加容易训练,甚至可以训练一千层的网络。残差网络对于随后的深层神经网络的设计产生了深远影响,无论是卷积类网络还是全连接类网络。
2025-08-01 20:22:44
229
原创 Class28批量归一化
批量归一化(Batch Normalization,简称BN)是一种用于加速神经网络训练、稳定训练过程并提高模型性能的技术。它最早由Ioffe和Szegedy在 2015 年提出,在深度学习中非常常见。计算当前小批量(Batch)中输入。,同时加上 ε 保证数值稳定。:通常放在线性层和激活函数之间。:通常放在卷积层和激活函数之间。学习变慢,需要精细调整学习率。BN要求在每一层的输入上进行。,从而缓解内部协变量偏移。
2025-08-01 16:42:04
560
原创 Class27GoogLeNet
GoogLeNet是 Google在2014年ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比赛中提出的一种深度卷积神经网络,它在保持较低计算复杂度的同时取得了极好的性能。GoogLeNet 的核心是 Inception Module,它通过并行的不同尺寸卷积和池化操作提取特征,捕捉不同感受野的信息,最后将它们在通道维度上拼接。3×3 max pooling 后再用 1×1 卷积(降低信息损失)3×3 卷积(中等感受野)
2025-07-30 17:32:51
500
原创 Class26NiN
NiN是在 2013 年提出的一种改进型卷积神经网络架构,主要思想是提升模型的表达能力和非线性建模能力。NiN 的提出主要是对传统卷积神经网络中卷积层的限制进行突破和扩展。,即对一个局部感受野做加权求和,得到一个特征值,接着加上偏置再通过激活函数。)卷积层堆叠在一起来替代一个普通卷积层,实现更复杂的特征抽象。结构固定、没有太多变种形式,灵活性不如 ResNet、DenseNet。)来代替传统的线性卷积核。1.增强网络的非线性建模能力;减少全连接层参数,提升泛化能力。更强的非线性建模能力。
2025-07-30 15:35:53
235
原创 Class25VGG
VGG 是由牛津大学视觉几何组的研究人员提出的,其中最著名的是 VGG16和VGG19两个版本,分别有16层和19层含有可学习参数的层。使用了多个小卷积核(3×3)堆叠 来代替大卷积核(如7×7),提升了网络深度和非线性表达能力,同时降低了参数量。两个 3×3 卷积核的感受野 ≈ 一个 5×5;三个 3×3 卷积核的感受野 ≈ 一个 7×7;三个 3×3 卷积核:3×9C² = 27C²。卷积核统一用 3×3,很适合现代硬件优化。参数非常多(VGG16大约138M参数)一个 7×7 卷积核:49C²。
2025-07-30 13:38:12
195
原创 Class24AlexNet
AlexNet于2012年ImageNet 图像识别挑战赛(ILSVRC-2012)中以 top-5 错误率15.3%获得冠军,远远领先第二名。AlexNet 是第一个在训练时使用 GPU 加速的深度网络。当时使用了 2 个 GPU 并行处理,每个 GPU 处理一半神经元,跨 GPU 只在某些层通信。用于增强激活的竞争机制,虽然在后来的网络(如 VGG、ResNet)中被弃用。池化窗口之间存在重叠(如池化核 3×3,步幅 2),有助于减小信息损失。5.LRN 局部响应归一化。3×3 卷积是主流标准,
2025-07-29 20:31:42
583
原创 Class23LeNet
LeNet 是深度学习中最早的卷积神经网络(CNN)之一,主要用于 手写数字识别(如 MNIST 数据集)。它是现代 CNN 架构的鼻祖,奠定了卷积神经网络中一些重要的设计原则。
2025-07-29 12:11:07
845
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人