阿正的梦工坊-CSDN博客

原创探索多语言大型语言模型中的跨语言事实知识一致性Cross-Lingual Consistency of Factual Knowledge

Cross-Lingual Consistency of Factual Knowledge in Multilingual Language Models

2025-05-23 20:50:25 671

原创 Source-Contrastive and Language-Contrastive Decoding解决翻译中的幻觉和目标语言错误

《Mitigating Hallucinations and Off-target Machine Translation with Source-Contrastive and Language-Contrastive Decoding》提出了一种创新的对比解码方法，旨在通过修改解码目标来缓解这些问题，而无需重新训练模型或依赖外部模型。

2025-05-23 19:23:03 451

原创介绍 SeaEval：多语言基础模型的全面评估基准

《SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning》

2025-05-23 18:17:49 512

原创用控制任务设计和解释探针：《Designing and Interpreting Probes with Control Tasks》

将单词或句子转化为高维向量，捕获它们的语义和语法信息。然而，一个关键问题困扰着研究者：这些表示到底学到了什么？它们是否真正编码了语言的结构，比如词性（part-of-speech）或句法关系？

2025-05-23 16:04:09 552

原创探讨大型语言模型在字符组成理解上的局限性——解读《Large Language Models Lack Understanding of Character Composition of Words》

中稿ICML 2024 Workshop on Large Language Models and Cognition

2025-05-22 20:55:33 561

原创揭秘语言模型中的“流氓维度”：Transformer模型表征质量的隐藏问题

2021年由William Timkey和Marten van Schijndel发表的论文《All Bark and No Bite: Rogue Dimensions in Transformer Language Models Obscure Representational Quality》（全吠无咬：Transformer语言模型中的流氓维度掩盖了表征质量）深入探讨了这些问题，揭示了所谓的“流氓维度”（rogue dimensions）如何干扰相似性度量，并提出了简单的后处理方法来改善表征分析。

2025-05-22 20:29:29 673

原创探索Transformer的内部机制：Tuned Lens方法详解

《Eliciting Latent Predictions from Transformers with the Tuned Lens》

2025-05-22 18:48:49 455

原创探索大语言模型的推理鲁棒性：《The Remarkable Robustness of LLMs: Stages of Inference?》

他们通过对模型层进行删除和交换的干预实验，揭示了LLMs在推理过程中的四个普适阶段：解分词（Detokenization）、特征工程（Feature Engineering）、预测集成（Prediction Ensembling）和残差锐化（Residual Sharpening）

2025-05-22 14:36:27 888

原创边缘归因修补（Edge Attribution Patching, EAP）：Attribution Patching Outperforms Automated Circuit Discovery

EAP将语言模型视为一个有向无环图（DAG），节点为注意力头或MLP，边表示节点之间的激活依赖。EAP的核心思想是通过线性近似来估计每条边对任务输出（例如损失或对数差）的贡献，从而快速识别重要子网络。

2025-05-21 19:29:01 1594

原创 SparseMixer：为 MoE 训练提供高效稀疏梯度估计（第一部分）

论文《Sparse Backpropagation for MoE Training》

2025-05-21 15:13:30 635

原创 SparseMixer：为 MoE 训练提供高效稀疏梯度估计（第二部分，公式详细解释）

3 FROM DISCRETE TO SPARSE: SPARSEMIXER解释

2025-05-21 15:05:19 711

原创 FlexiDepth：Adaptive Layer-skipping in Pre-trained LLMs

FlexiDepth通过动态层跳跃、轻量级路由器和适配器，为预训练LLM提供了高效的优化方案。

2025-05-21 13:54:53 953

原创 SEER-MoE：通过正则化实现稀疏专家模型的高效优化

《SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts》

2025-05-20 21:06:40 552

原创 Router-Tuning：一种高效的动态深度调整方法

《Router-Tuning: A Simple and Effective Approach for Dynamic Depth》

2025-05-20 19:03:52 996

原创高效部署MoE大语言模型：专家剪枝与动态跳跃的突破

《Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models》提出了一种创新的专家级稀疏化方法，通过后训练专家剪枝（Expert Pruning）和动态专家跳跃（Dynamic Expert Skipping），显著降低了 MoE 模型的内存占用并提升了推理速度，同时保持了较高的性能。

2025-05-19 15:55:36 1133

原创哈希层在大型稀疏模型中的应用——一种简单高效的MOE路由策略

Facebook AI Research团队在论文《Hash Layers For Large Sparse Models》中提出了一种基于哈希的路由策略，称为“哈希层”（Hash Layer），为MoE模型提供了一种简单、高效且无需学习路由参数的替代方案。

2025-05-19 15:09:54 753

原创《On the Representation Collapse of Sparse Mixture of Experts》：解决MoE表示崩塌问题

SMoE的路由机制可能导致表示崩塌（representation collapse），从而限制模型的表达能力。《On the Representation Collapse of Sparse Mixture of Experts》一文（NeurIPS 2022）深入分析了这一问题，并提出了一种创新的路由算法（X-MoE），有效缓解表示崩塌并提升模型性能。

2025-05-19 13:55:33 807

原创《Lost in the Middle: How Language Models Use Long Contexts》研究方法与贡献

论文将U形性能曲线与心理学中的“序列位置效应”（serial-position effect）相联系，指出尽管Transformer自注意力机制理论上对所有位置平等处理，实际表现却类似人类记忆的首因和近因效应，这一发现为理解模型行为提供了跨学科视角。

2025-05-18 18:57:08 745

原创 UMoE：统一注意力与FFN的混合专家模型

论文《UMoE: Unifying Attention and FFN with Shared Experts》提出了一种新颖的MoE架构——UMoE，通过重新定义注意力机制，统一了注意力层和FFN层的MoE设计，实现了参数共享和性能提升。

2025-05-18 18:27:13 920

原创 Transformer中两层FFN近似方法:σ-MoE的提出

《Approximating Two-Layer Feedforward Networks for Efficient Transformers》

2025-05-16 20:45:04 891

原创解析SwitchHead的Mixture-of-Experts注意力机制

NeurIPS 2024发表的论文《SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention》

2025-05-16 20:18:42 1321

原创 Transformer前馈层的键值记忆机制

《Transformer Feed-Forward Layers Are Key-Value Memories》

2025-05-16 16:12:23 251

原创深入解析《Generalizable Reward Model (GRM)》：提升奖励模型泛化能力的创新方法

NeurIPS 2024 收录的论文《Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs》

2025-05-16 14:38:20 853

原创 Skywork-VL Reward：多模态奖励模型的突破性进展

《Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning》

2025-05-16 13:48:19 549

原创强化学习（RLVR）真的能提升大语言模型的推理能力吗？——解读最新研究

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

2025-05-15 18:59:17 484

原创深入解析Mixture of Attention Heads (MoA)：革新Transformer注意力机制

《Mixture of Attention Heads: Selecting Attention Heads Per Token》

2025-05-14 17:37:16 769

原创 Mixture-of-Depths：动态分配计算资源的Transformer新方法

《Mixture-of-Depths: Dynamically allocating compute in transformer-based language models》

2025-05-14 14:14:43 787

原创介绍《THE UNREASONABLE INEFFECTIVENESS OF THE DEEPER LAYERS》：Transformer深层参数的冗余性与优化空间

揭示了Transformer深层参数的冗余性和浅层在知识存储中的重要性，为模型压缩和参数效率优化提供了重要启发。

2025-05-14 13:31:41 672

原创 ShortGPT：揭示大型语言模型的层冗余与高效压缩

《ShortGPT: Layers in Large Language Models are More Redundant Than You Expect》

2025-05-12 19:41:16 1258

原创 Mixture of Lookup Experts：革新MoE架构的高效推理方案

MoE在推理过程中面临两大瓶颈：高显存（VRAM）占用和专家动态加载带来的延迟。论文《Mixture of Lookup Experts》（MoLE）提出了一种创新的MoE变种，通过将专家从前馈神经网络（FFN）重参数化为查找表（LUT），显著降低了显存需求和通信延迟，同时保持与MoE相当的性能。

2025-05-11 19:53:22 918

原创 Flow-GRPO：将在线强化学习融入Flow Matching模型的创新

《Flow-GRPO: Training Flow Matching Models via Online RL》

2025-05-11 14:39:52 821

原创 Vision Transformer中Skip Connection与条件数的分析(Always Skip Attention)

ViT中自注意力机制的一个关键问题：其输出嵌入的条件数（condition number）在没有跳跃连接（skip connection）的情况下会显著恶化，导致训练不稳定甚至失败。

2025-05-10 21:26:15 710

原创跨语言推理中的测试时扩展《Crosslingual Reasoning through Test-Time Scaling》

探讨了以英语为中心训练的推理语言模型（RLMs）在多语言环境下的表现。这篇论文不仅揭示了测试时计算扩展（test-time scaling）在跨语言推理中的潜力，还深入分析了语言混合模式、语言强制策略以及跨领域泛化的局限性。

2025-05-10 20:34:28 826

原创 Transformer-Squared（Transformer²）：自适应大语言模型的创新框架

2025年ICLR会议论文《Transformer-Squared: Self-Adaptive LLMs》提出了一种名为 Transformer² 的自适应框架，通过引入 Singular Value Fine-tuning (SVF) 和两阶段推理机制，显著提升了LLM的适应性和效率。

2025-05-09 19:23:21 566

原创探索更高效的Transformer：解读《Primer: Searching for Efficient Transformers for Language Modeling》

核心在于其创新的搜索空间（基于原始操作的DNA结构）和搜索方法（Regularized Evolution with Hurdles），发现了平方ReLU和MDHA两项简单而强大的修改。这些修改在多种规模、数据集和代码库中显著降低了训练成本

2025-05-09 16:53:42 780

原创 Squared ReLU：Transformer中的高效激活函数

Squared ReLU 的设计灵感来源于对高阶多项式激活函数的研究。虽然 rectified 形式的二次多项式激活函数在神经网络中并不常见，但研究表明它在 Transformer 模型中表现出色，尤其是在自然语言处理任务中，能够显著提升训练速度和模型性能。

2025-05-09 16:45:22 668

原创 Llama-Nemotron系列：高效推理与开源贡献

2025年5月，NVIDIA发布了《Llama-Nemotron: Efficient Reasoning Models》论文，推出了Llama-Nemotron系列模型（LN-Nano 8B、LN-Super 49B、LN-Ultra 253B）。

2025-05-09 15:33:48 965

原创 FFN Fusion 技术解析：加速大型语言模型推理

FFN Fusion 的初步研究表明，甚至包含注意力层和 FFN 层的完整 Transformer 块在某些情况下也可以并行化。

2025-05-09 14:37:52 1122

原创 Puzzle框架：基于NAS的推理优化LLM的突破性贡献

NVIDIA团队在论文《PUZZLE: DISTILLATION-BASED NAS FOR INFERENCE-OPTIMIZED LLMS》中提出了Puzzle框架，通过神经架构搜索（NAS）和知识蒸馏技术，优化LLM的推理效率，同时保留其性能。

2025-05-08 19:31:10 722

原创 LANA（Latency-Aware Network Acceleration）：基于神经架构搜索的延迟感知网络加速技术

LANA通过创新的两阶段框架和整数线性优化，显著提升了神经网络加速的效率和效果。其逐层操作、超大搜索空间支持以及快速搜索能力，为深度学习研究者提供了宝贵的参考。

2025-05-08 16:10:38 579

李永乐线代强化笔记2020年.rar

李永乐线代基础班笔记.zip

空空如也