![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
神经网络
文章平均质量分 69
AndrewPerfect
Deep Learn ING...
展开
-
大模型/NLP/算法面试题总结7——LLaMA和别的模型架构有什么区别
综上所述,LLaMA模型架构在设计思想、技术细节和应用场景上均与其他模型存在显著差异。特别是其开源特性和在公共预训练数据上的训练,使得LLaMA易于被其他研究者和开发者使用和改进。在归一化方法上,许多模型采用BatchNorm或LayerNorm,而LLaMA的。,通过旋转变换在复数域中编码位置信息,能够更好地捕捉序列中的相对位置信息。激活函数方面,不同模型可能采用ReLU、GELU等不同的激活函数,往往追求更大的模型规模,认为更大的模型能够带来更好的性能。,增强了模型的表达能力和性能。原创 2024-07-10 18:44:04 · 467 阅读 · 0 评论 -
大模型/NLP/算法面试题总结8——预训练模型是什么?微调的方法?
大模型微调的方法多种多样,每种方法都有其独特的优势和适用场景。在选择微调方法时,需要根据任务的具体性质和需求、计算资源的限制以及模型的特点来综合考虑。同时,由于大型语言模型的复杂性,微调过程可能需要较大的计算资源和时间,因此需要谨慎选择超参数、进行良好的数据预处理和选择适当的评估指标。原创 2024-07-10 18:18:32 · 1091 阅读 · 0 评论 -
大模型/NLP/算法面试题总结6——为什么会产生梯度消失和梯度爆炸?
梯度消失和梯度爆炸是深度学习中常见的问题,它们主要发生在神经网络的训练过程中,尤其是在使用反向传播算法进行权重更新时。以下是对这两个问题产生原因的详细分析:一、梯度消失的原因深层网络结构: 当神经网络层数过多时,梯度在反向传播过程中会经过多次连乘操作。如果每层的梯度都小于1(如sigmoid函数的导数在大部分情况下都小于0.25),那么随着层数的增加,梯度值会以指数形式迅速衰减到接近于0,导致梯度消失。 不合适的激活函数: 某些激活函数(如sigmoid和tanh)的导数在输入值远离原点原创 2024-07-10 15:51:02 · 839 阅读 · 0 评论 -
回归损失和分类损失
回归损失和分类损失是机器学习模型训练过程中常用的两类损失函数,分别适用于回归任务和分类任务。原创 2024-07-08 17:54:34 · 632 阅读 · 0 评论 -
怎么样调整分类的阈值
调整分类模型的阈值是改变模型对正负类的预测标准的一种方法,常用于提高精确率、召回率或者其他性能指标。原创 2024-07-03 11:50:52 · 909 阅读 · 0 评论 -
假阳性和假阴性、真阳性和真阴性
在深度学习的分类问题中,真阳性、真阴性、假阳性和假阴性是评估模型性能的重要指标。模型预测为正类(阳性),且实际标签也是正类这些指标可以通过混淆矩阵(Confusion Matrix)来直观表示。原创 2024-07-03 10:41:54 · 1100 阅读 · 0 评论 -
backbone是什么?
在深度学习中,特别是计算机视觉领域,。它通常是卷积神经网络(CNN),其任务是从输入图像中提取高层次特征,这些特征然后被用于各种任务,如目标检测、图像分割、分类等。原创 2024-07-02 21:05:43 · 779 阅读 · 0 评论 -
机器学习之参数-P、R、AP、mAP、F1
调小的同时增大学习率(learning_rate)是一种常用的策略,旨在保持训练速度的同时提高模型的训练质量。可能使得每次迭代中的噪声增加,从而有助于模型跳出局部最小值;而增大的学习率则有助于模型更快地更新权重。预测样本中实际正样本数。预测样本中实际正样本数。原创 2024-07-02 16:04:31 · 397 阅读 · 0 评论 -
深度学习之激活函数
以上这些激活函数在神经网络中起着至关重要的作用,它们通过添加非线性因素,使得神经网络能够学习和拟合复杂的真实世界系统。激活函数的公式根据不同的函数类型而有所不同。原创 2024-07-01 18:24:31 · 515 阅读 · 0 评论