无月123789-CSDN博客

原创如何选取最合适的预训练模型（3）

定性来说，learning dynamics主要在做特定训练示例的学习如何影响模型对其他示例的预测。这面对分类问题将会非常适合。θθ表示模型参数，fθfθ表示模型函数。θθ的变化如何影响fθfθ的变化显然，无论是深度学习还是基础模型的微调，都将用到梯度下降。

2025-08-12 16:45:28 933

原创如何选取最合适的预训练模型（2）

本文探讨了预训练模型评估方法LogME和DISCO的优缺点。实验发现，LogME在小数据集下可能虚高评分，且无法准确反映微调效果；而DISCO通过分解特征空间计算NCC score和SVD ratio，能更细致地评估模型表现。两种方法各有利弊，需结合具体任务选择合适的评估策略。

2025-07-22 16:50:35 716

原创论文精读（7）—— LinOSS: Oscillatory State-Space Models

本文介绍了ICLR 2025 Oral论文《线性振荡状态空间模型（LinOSS）》，提出了一种基于二阶ODE的状态空间模型。通过受迫简谐振动方程建模，将二阶系统转化为可学习的状态空间模型（SSM），并推导了隐式（IM）和半隐式（IMEX）两种离散化方法，在保持稳定性的同时提升计算效率。该方法利用对角矩阵结构和Schur补分解，实现了线性时间复杂度，适用于长期序列建模。

2025-05-29 22:17:20 983

原创论文精读（6）——如何选取最合适的预训练模型

相信很多人在进行研究时都会遇到这样的问题：我有一个数据集，我想利用预训练好的模型对他进行微调，但是预训练模型杂七杂八，有的对数据集好使，有的又不好使。一个一个尝试固然可以，但这样毕竟效率太低，那是否会有一种评价方法来体现预训练模型的泛化性、可迁移性等等？换句话说，我们尝试利用一种评价方法，评估预训练后的模型是否在现有的数据集下具有强大的泛化性

2025-04-27 22:18:00 2016 2

原创 Transformer 升级之路（2）——当我们谈位置编码时

紧跟上文介绍的Transformer的三大板块，这次从位置编码入手。很显然，之前对于位置编码仅是匆匆介绍，大抵很多问题仍萦绕在脑中。下面就对于位置编码进行详细介绍

2025-04-14 20:14:40 1162

原创 Transformer 升级之路（1）

想把Transformer作为一个地基叙说，以此对Transformer做延展性讲解，故而开一个系列，希望能对大家有所帮助。

2025-04-08 17:41:32 1290

原创论文精读（5）——NSA 论文详解

目前主流的架构都在处理大模型长上下文的建模问题，因为这会导致Transformer内存太大；前面我所总结的的论文精读：Titans曾提到其中一个方向是稀疏注意力的方法，而正巧的是NSA和MoBA都提到了这一技术

2025-03-21 21:56:05 1088

原创论文精读（4）——Titans 论文详解

这次带来一个很有启发性的论文：Titans；这篇文章对于我的震撼程度和Transformer几乎一致，带给我很多的思考和收获，我相信今年一定会有这个方向很多的related work，也一定是AI发展的重要方向

2025-03-08 00:14:30 1654

原创论文精读（3）——精读DeepSeek技术报告系列

关于Deepseek-V2版本技术点的创新确实很多，因此会发布三篇文章来深入浅出的讲解。这篇主要串一下整体的流程并详细讲解第一个技术创新：Multihead latent Attention(MLA)；个人认为技术创新一定有规律遵循，就好比搭积木一点一点搭起来的，每理解清楚一层再走到下一层才会更加坦然

2025-02-16 21:08:41 1632