深度学习
文章平均质量分 96
如果你也听说~
这个作者很懒,什么都没留下…
展开
-
大模型微调总结1-总览
参数高效微调(Parameter-efficient fine-tuning)是指微调少量或额外的模型参数,固定大部分预训练模型(LLM)参数,从而大大降低了计算和存储成本,同时,也能实现与全量参数微调相当的性能。参数高效微调方法甚至在某些情况下比全量微调效果更好,可以更好地泛化到域外场景。这也是现在主流的微调方法。高效微调技术可以粗略分为以下三大类:增加额外参数(A)、选取一部分参数更新(S)、引入重参数化(R)。原创 2023-12-27 11:12:04 · 1049 阅读 · 0 评论 -
详解知识蒸馏原理和代码
知识蒸馏是一种模型压缩的有效解决方案;总的来说,学生模型通过蒸馏训练来获取教师知识,小模型学习到了大模型的泛化能力,保留了大模型的性能,同时降低了模型的大小和复杂性,模型更轻量易于部署。原创 2023-05-24 20:32:06 · 2323 阅读 · 1 评论 -
深入理解2D卷积和3D卷积
在项目中用到了conv3但是对其背后的原理还有一些模糊的地方,conv2d与多通道的conv2d的区别在哪里?conv3d的思想理论是什么?对此进行探究和记录...... 首先要明确多通道的2d卷积和3d卷积是不一样的,3d是可以在通道中移动的,2d不可以原创 2023-05-16 21:03:09 · 3046 阅读 · 0 评论 -
深入了解梯度消失与梯度爆炸
本文探讨深度学习中经常会提到的概念–梯度消失与梯度爆炸。他们是影响模型收敛,学习好坏的一个重要因素,对此现象也提出了对应的解决方案。在此记录其概念,原因和相关的解决方案,仅供参考。原创 2023-05-12 20:36:11 · 825 阅读 · 0 评论