机器学习
文章平均质量分 89
LOST P
坚持开源精神(https://github.com/Fu2003120)
展开
-
【机器学习】Epoch(训练轮数)和Step(迭代次数)
Epoch(训练轮数)和 Step(迭代次数)是深度学习中训练模型的两个关键概念。Epoch 指模型在训练过程中遍历整个训练数据集一次,即对所有样本完成一次前向传播和反向传播。在一个 Epoch 中,模型会看到每个训练样本一次。Step(迭代)是模型使用一个批次(Batch)数据进行一次参数更新的过程,每处理一个 Batch,就是一个 Step。原创 2024-09-18 11:31:49 · 2137 阅读 · 0 评论 -
【机器学习】学习率
学习率(Learning Rate)是深度学习中的关键超参数,控制模型参数在每次更新时移动的步长。学习率过大可能导致模型发散或震荡,过小则可能导致收敛缓慢或陷入局部最优。选择合适的学习率能够加快训练速度并提高模型的性能。常见的学习率调整策略包括学习率衰减、指数衰减、余弦退火等。此外,使用自适应优化器如Adam或RMSprop也能动态调整学习率,适应不同的训练需求。原创 2024-09-18 11:22:21 · 1659 阅读 · 0 评论 -
【机器学习】指数移动平均(EMA,Exponential Moving Average)
指数移动平均(EMA)是一种加权平均技术,常用于平滑数据序列,特别是在深度学习中跟踪模型参数的平滑版本。EMA通过赋予最近更新较大的权重,历史更新权重逐渐减小,使得它能快速响应新变化,保留平滑效果。相比于简单移动平均(SMA),EMA更加重视最新数据。例如,训练模型时,EMA能生成一个比最新模型参数更稳定的版本,提升泛化能力,抑制过拟合和训练过程中的波动,从而改善模型性能。原创 2024-09-13 16:25:15 · 787 阅读 · 0 评论 -
【机器学习】激活函数(Softmax)
Softmax 是一种常用于多分类任务的激活函数,其作用是将未归一化的输出向量转换为概率分布,使每个类别的概率值介于 0 到 1 之间,且所有类别的概率和为 1。在卷积神经网络(CNN)中,Softmax 通常用于最后一层,处理多分类问题。通过将全连接层的输出(各类别的“原始分数”)经过 Softmax 转换为概率,可以直观地确定模型对每个类别的信心。例如,在手写数字识别任务中,Softmax 的输出概率可用于确定模型对数字类别的预测结果。原创 2024-09-13 09:56:35 · 863 阅读 · 0 评论 -
【机器学习】大卷积核or小卷积核
大卷积核和小卷积核在卷积神经网络设计中各有优势。大卷积核能一次捕捉全局信息,减少卷积层堆叠,但计算量和参数量大,容易忽略局部细节。小卷积核擅长捕捉局部特征,计算效率高,过拟合风险较低,但需要更多层来扩大感受野。结合大、小卷积核的架构(如RepLKNet)通过重参数化技术在训练时融合两者优点,既提升全局信息获取能力,又保持推理效率,是提高模型性能的一种有效方法。原创 2024-09-12 22:35:21 · 641 阅读 · 0 评论 -
【机器学习】正则化-Dropout/DropPath
Dropout和DropPath是两种常用的正则化技术,用于提高深度神经网络的泛化能力。Dropout通过随机移除部分神经元及其连接,防止神经元共适应性,促使每个神经元独立学习有用特征,从而减少过拟合。DropPath则随机丢弃深度网络中的整个路径或残差块,特别适用于带有残差连接的网络(如ResNet),使网络在不同路径组合下工作,提升鲁棒性和泛化能力。在训练过程中,DropPath会随机丢弃主路径,仅使用跳跃连接,确保网络在不同子结构下进行训练。两者均在训练时有效减少模型的过拟合现象,提高性能。原创 2024-09-12 21:57:03 · 1589 阅读 · 0 评论 -
【机器学习】过拟合/欠拟合+正则化
正则化是一种在模型训练过程中通过增加惩罚项来限制模型复杂度,防止过拟合的技术。常见的正则化方法包括 L1 和 L2 正则化。L1 正则化惩罚模型参数的绝对值之和,能够产生稀疏解,适用于特征选择。而 L2 正则化则通过惩罚参数的平方和缩小权重,使模型更加平滑,减少对噪声的敏感性,但不会将参数压缩为零。此外,Elastic Net 结合了 L1 和 L2 正则化的优点,既具有稀疏性又具有平滑性,适合高维数据集的特征选择和防止过拟合。正则化技术通过控制模型参数,提升泛化能力,避免复杂模型在训练数据上表现过好而在测原创 2024-09-12 17:06:27 · 1234 阅读 · 0 评论 -
【机器学习】下采样 (Downsampling)
下采样(Downsampling)是深度学习和信号处理中通过降低数据的空间分辨率和减少数据量的过程,常用于卷积神经网络(CNN)中以减小计算量、扩大感受野并提取抽象特征。其主要目的是通过减少特征图尺寸来降低计算复杂度、捕捉更广泛的上下文信息,及防止过拟合。常见的下采样方法包括最大池化、平均池化以及通过设置卷积层步幅大于1实现下采样。相比传统的池化操作,卷积下采样不仅降低分辨率,还能提取特征,保留更多信息。ConvNeXt通过步幅为4的卷积操作实现下采样,有效平衡了特征提取和尺寸缩减。原创 2024-09-12 15:51:30 · 1172 阅读 · 0 评论 -
【机器学习】层归一化(Layer Normalization)
Layer Normalization 是一种神经网络归一化方法,通过对每层神经元的激活值进行归一化,解决梯度消失和梯度爆炸问题。不同于批量归一化,LayerNorm 针对每个样本的每层神经元操作,适用于深层网络和小批量训练。它通过计算均值和标准差将激活值归一化,并使用可学习的参数进行缩放与偏移。通过对比带有 sigmoid 激活函数的深层网络,展示了 LayerNorm 如何在前向传播时保持激活值在合理范围内,避免梯度在反向传播时逐层衰减,有效缓解梯度消失问题。原创 2024-09-12 11:33:52 · 2310 阅读 · 0 评论 -
【机器学习】反向传播与梯度消失/爆炸
反向传播是优化神经网络的核心思想,通过计算损失函数的梯度更新权值。本文介绍了反向传播及其与梯度下降算法的关系,并举例说明了线性回归模型中的梯度下降过程。接着探讨了深度神经网络中的梯度消失和梯度爆炸问题。梯度消失通常发生在深层网络中,尤其是带有 sigmoid 等激活函数的网络,导致前几层参数无法有效更新;梯度爆炸则是梯度在传播中迅速增大,影响训练稳定性。本文分析了这些问题的根源,并强调其在反向传播算法中的固有不足。原创 2024-09-12 10:51:22 · 392 阅读 · 0 评论 -
【机器学习】卷积神经网络(CNN)
卷积神经网络(CNN)是一种深度学习模型,通过多层结构实现图像识别等任务。CNN包括输入层、卷积层、池化层、全连接层和输出层。输入层接收原始数据,卷积层通过滑动卷积核提取图像特征,池化层进一步压缩特征图,减少过拟合并提高模型对平移等变换的鲁棒性。全连接层将提取的特征展开并进行分类或回归任务,输出层通过Softmax函数生成概率分布,完成最终预测。CNN广泛用于图像处理、手写数字识别等领域,具有很强的特征提取能力。原创 2024-09-10 21:39:58 · 4397 阅读 · 0 评论 -
【机器学习】优化器/SAM
在机器学习中,优化器负责更新模型参数以最小化损失函数,从而提高模型的预测能力。常见的优化器如梯度下降、随机梯度下降、Adam等,基于梯度信息逐步调整参数。Sharpness-Aware Minimization (SAM) 则通过两步更新策略,提升模型对小扰动的鲁棒性,帮助模型找到更平滑、稳定的解,提高泛化能力。原创 2024-09-05 17:04:49 · 1032 阅读 · 0 评论 -
【机器学习】梯度下降法/学习率
本文介绍了通过梯度下降法和均方误差(MSE)优化线性回归模型的过程。以简单的线性模型为例,展示如何使用梯度下降法更新模型参数,使预测值逐渐接近真实值。通过计算损失函数(MSE)对参数的梯度,并结合学习率调整参数,实现模型的快速收敛。原创 2024-09-05 16:23:28 · 1019 阅读 · 0 评论