自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 如何选取最合适的预训练模型(3)

定性来说,learning dynamics主要在做特定训练示例的学习如何影响模型对其他示例的预测。这面对分类问题将会非常适合。θθ表示模型参数,fθfθ​表示模型函数。θθ的变化如何影响fθfθ​的变化显然,无论是深度学习还是基础模型的微调,都将用到梯度下降。

2025-08-12 16:45:28 933

原创 如何选取最合适的预训练模型(2)

本文探讨了预训练模型评估方法LogME和DISCO的优缺点。实验发现,LogME在小数据集下可能虚高评分,且无法准确反映微调效果;而DISCO通过分解特征空间计算NCC score和SVD ratio,能更细致地评估模型表现。两种方法各有利弊,需结合具体任务选择合适的评估策略。

2025-07-22 16:50:35 716

原创 论文精读(7)—— LinOSS: Oscillatory State-Space Models

本文介绍了ICLR 2025 Oral论文《线性振荡状态空间模型(LinOSS)》,提出了一种基于二阶ODE的状态空间模型。通过受迫简谐振动方程建模,将二阶系统转化为可学习的状态空间模型(SSM),并推导了隐式(IM)和半隐式(IMEX)两种离散化方法,在保持稳定性的同时提升计算效率。该方法利用对角矩阵结构和Schur补分解,实现了线性时间复杂度,适用于长期序列建模。

2025-05-29 22:17:20 983

原创 论文精读(6)——如何选取最合适的预训练模型

相信很多人在进行研究时都会遇到这样的问题:我有一个数据集,我想利用预训练好的模型对他进行微调,但是预训练模型杂七杂八,有的对数据集好使,有的又不好使。一个一个尝试固然可以,但这样毕竟效率太低,那是否会有一种评价方法来体现预训练模型的泛化性、可迁移性等等?换句话说,我们尝试利用一种评价方法,评估预训练后的模型是否在现有的数据集下具有强大的泛化性

2025-04-27 22:18:00 2016 2

原创 Transformer 升级之路(2)——当我们谈位置编码时

紧跟上文介绍的Transformer的三大板块,这次从位置编码入手。很显然,之前对于位置编码仅是匆匆介绍,大抵很多问题仍萦绕在脑中。下面就对于位置编码进行详细介绍

2025-04-14 20:14:40 1162

原创 Transformer 升级之路(1)

想把Transformer作为一个地基叙说,以此对Transformer做延展性讲解,故而开一个系列,希望能对大家有所帮助。

2025-04-08 17:41:32 1290

原创 论文精读(5)——NSA 论文详解

目前主流的架构都在处理大模型长上下文的建模问题,因为这会导致Transformer内存太大;前面我所总结的的论文精读:Titans曾提到其中一个方向是稀疏注意力的方法,而正巧的是NSA和MoBA都提到了这一技术

2025-03-21 21:56:05 1088

原创 论文精读(4)——Titans 论文详解

这次带来一个很有启发性的论文:Titans;这篇文章对于我的震撼程度和Transformer几乎一致,带给我很多的思考和收获,我相信今年一定会有这个方向很多的related work,也一定是AI发展的重要方向

2025-03-08 00:14:30 1654

原创 论文精读(3)——精读DeepSeek技术报告系列

关于Deepseek-V2版本技术点的创新确实很多,因此会发布三篇文章来深入浅出的讲解。这篇主要串一下整体的流程并详细讲解第一个技术创新:Multihead latent Attention(MLA);个人认为技术创新一定有规律遵循,就好比搭积木一点一点搭起来的,每理解清楚一层再走到下一层才会更加坦然

2025-02-16 21:08:41 1632

原创 论文精读(2)——精读DeepSeek技术报告系列

目前deepseek大火,很多文章也对其团队发出的技术报告进行了详细的解读和分析,但更需要的是从头开始一步一步展示deepseek发展过程,而这里就是他们的第一篇技术报告。

2025-02-08 16:35:22 1114

原创 论文精读(1)

论文大致介绍了表征坍缩(representation collapse),即模型输出一个持续的输入不变的特征表示。所采用的方法是不在高维重构信号,而是预测嵌入(embedding)层;并对时间序列的统计值的泛函做预测。

2025-01-10 22:53:02 2124

原创 浅浅对1/R做拉普拉斯运算的思考~

对1/R做拉普拉斯运算的思考~

2023-03-15 23:24:24 3942 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除