- 博客(12)
- 收藏
- 关注
原创 如何选取最合适的预训练模型(3)
定性来说,learning dynamics主要在做特定训练示例的学习如何影响模型对其他示例的预测。这面对分类问题将会非常适合。θθ表示模型参数,fθfθ表示模型函数。θθ的变化如何影响fθfθ的变化显然,无论是深度学习还是基础模型的微调,都将用到梯度下降。
2025-08-12 16:45:28
933
原创 如何选取最合适的预训练模型(2)
本文探讨了预训练模型评估方法LogME和DISCO的优缺点。实验发现,LogME在小数据集下可能虚高评分,且无法准确反映微调效果;而DISCO通过分解特征空间计算NCC score和SVD ratio,能更细致地评估模型表现。两种方法各有利弊,需结合具体任务选择合适的评估策略。
2025-07-22 16:50:35
716
原创 论文精读(7)—— LinOSS: Oscillatory State-Space Models
本文介绍了ICLR 2025 Oral论文《线性振荡状态空间模型(LinOSS)》,提出了一种基于二阶ODE的状态空间模型。通过受迫简谐振动方程建模,将二阶系统转化为可学习的状态空间模型(SSM),并推导了隐式(IM)和半隐式(IMEX)两种离散化方法,在保持稳定性的同时提升计算效率。该方法利用对角矩阵结构和Schur补分解,实现了线性时间复杂度,适用于长期序列建模。
2025-05-29 22:17:20
983
原创 论文精读(6)——如何选取最合适的预训练模型
相信很多人在进行研究时都会遇到这样的问题:我有一个数据集,我想利用预训练好的模型对他进行微调,但是预训练模型杂七杂八,有的对数据集好使,有的又不好使。一个一个尝试固然可以,但这样毕竟效率太低,那是否会有一种评价方法来体现预训练模型的泛化性、可迁移性等等?换句话说,我们尝试利用一种评价方法,评估预训练后的模型是否在现有的数据集下具有强大的泛化性
2025-04-27 22:18:00
2016
2
原创 Transformer 升级之路(2)——当我们谈位置编码时
紧跟上文介绍的Transformer的三大板块,这次从位置编码入手。很显然,之前对于位置编码仅是匆匆介绍,大抵很多问题仍萦绕在脑中。下面就对于位置编码进行详细介绍
2025-04-14 20:14:40
1162
原创 Transformer 升级之路(1)
想把Transformer作为一个地基叙说,以此对Transformer做延展性讲解,故而开一个系列,希望能对大家有所帮助。
2025-04-08 17:41:32
1290
原创 论文精读(5)——NSA 论文详解
目前主流的架构都在处理大模型长上下文的建模问题,因为这会导致Transformer内存太大;前面我所总结的的论文精读:Titans曾提到其中一个方向是稀疏注意力的方法,而正巧的是NSA和MoBA都提到了这一技术
2025-03-21 21:56:05
1088
原创 论文精读(4)——Titans 论文详解
这次带来一个很有启发性的论文:Titans;这篇文章对于我的震撼程度和Transformer几乎一致,带给我很多的思考和收获,我相信今年一定会有这个方向很多的related work,也一定是AI发展的重要方向
2025-03-08 00:14:30
1654
原创 论文精读(3)——精读DeepSeek技术报告系列
关于Deepseek-V2版本技术点的创新确实很多,因此会发布三篇文章来深入浅出的讲解。这篇主要串一下整体的流程并详细讲解第一个技术创新:Multihead latent Attention(MLA);个人认为技术创新一定有规律遵循,就好比搭积木一点一点搭起来的,每理解清楚一层再走到下一层才会更加坦然
2025-02-16 21:08:41
1632
原创 论文精读(2)——精读DeepSeek技术报告系列
目前deepseek大火,很多文章也对其团队发出的技术报告进行了详细的解读和分析,但更需要的是从头开始一步一步展示deepseek发展过程,而这里就是他们的第一篇技术报告。
2025-02-08 16:35:22
1114
原创 论文精读(1)
论文大致介绍了表征坍缩(representation collapse),即模型输出一个持续的输入不变的特征表示。所采用的方法是不在高维重构信号,而是预测嵌入(embedding)层;并对时间序列的统计值的泛函做预测。
2025-01-10 22:53:02
2124
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅