- 博客(2170)
- 资源 (6)
- 收藏
- 关注
原创 探索多语言大型语言模型中的跨语言事实知识一致性Cross-Lingual Consistency of Factual Knowledge
Cross-Lingual Consistency of Factual Knowledge in Multilingual Language Models
2025-05-23 20:50:25
671
原创 Source-Contrastive and Language-Contrastive Decoding解决翻译中的幻觉和目标语言错误
《Mitigating Hallucinations and Off-target Machine Translation with Source-Contrastive and Language-Contrastive Decoding》提出了一种创新的对比解码方法,旨在通过修改解码目标来缓解这些问题,而无需重新训练模型或依赖外部模型。
2025-05-23 19:23:03
451
原创 介绍 SeaEval:多语言基础模型的全面评估基准
《SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning》
2025-05-23 18:17:49
512
原创 用控制任务设计和解释探针:《Designing and Interpreting Probes with Control Tasks》
将单词或句子转化为高维向量,捕获它们的语义和语法信息。然而,一个关键问题困扰着研究者:这些表示到底学到了什么?它们是否真正编码了语言的结构,比如词性(part-of-speech)或句法关系?
2025-05-23 16:04:09
552
原创 探讨大型语言模型在字符组成理解上的局限性——解读《Large Language Models Lack Understanding of Character Composition of Words》
中稿ICML 2024 Workshop on Large Language Models and Cognition
2025-05-22 20:55:33
561
原创 揭秘语言模型中的“流氓维度”:Transformer模型表征质量的隐藏问题
2021年由William Timkey和Marten van Schijndel发表的论文《All Bark and No Bite: Rogue Dimensions in Transformer Language Models Obscure Representational Quality》(全吠无咬:Transformer语言模型中的流氓维度掩盖了表征质量)深入探讨了这些问题,揭示了所谓的“流氓维度”(rogue dimensions)如何干扰相似性度量,并提出了简单的后处理方法来改善表征分析。
2025-05-22 20:29:29
673
原创 探索Transformer的内部机制:Tuned Lens方法详解
《Eliciting Latent Predictions from Transformers with the Tuned Lens》
2025-05-22 18:48:49
455
原创 探索大语言模型的推理鲁棒性:《The Remarkable Robustness of LLMs: Stages of Inference?》
他们通过对模型层进行删除和交换的干预实验,揭示了LLMs在推理过程中的四个普适阶段:解分词(Detokenization)、特征工程(Feature Engineering)、预测集成(Prediction Ensembling)和残差锐化(Residual Sharpening)
2025-05-22 14:36:27
888
原创 边缘归因修补(Edge Attribution Patching, EAP):Attribution Patching Outperforms Automated Circuit Discovery
EAP将语言模型视为一个有向无环图(DAG),节点为注意力头或MLP,边表示节点之间的激活依赖。EAP的核心思想是通过线性近似来估计每条边对任务输出(例如损失或对数差)的贡献,从而快速识别重要子网络。
2025-05-21 19:29:01
1594
原创 SparseMixer:为 MoE 训练提供高效稀疏梯度估计 (第一部分)
论文《Sparse Backpropagation for MoE Training》
2025-05-21 15:13:30
635
原创 SparseMixer:为 MoE 训练提供高效稀疏梯度估计(第二部分,公式详细解释)
3 FROM DISCRETE TO SPARSE: SPARSEMIXER解释
2025-05-21 15:05:19
711
原创 FlexiDepth:Adaptive Layer-skipping in Pre-trained LLMs
FlexiDepth通过动态层跳跃、轻量级路由器和适配器,为预训练LLM提供了高效的优化方案。
2025-05-21 13:54:53
953
原创 SEER-MoE:通过正则化实现稀疏专家模型的高效优化
《SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts》
2025-05-20 21:06:40
552
原创 Router-Tuning:一种高效的动态深度调整方法
《Router-Tuning: A Simple and Effective Approach for Dynamic Depth》
2025-05-20 19:03:52
996
原创 高效部署MoE大语言模型:专家剪枝与动态跳跃的突破
《Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models》提出了一种创新的专家级稀疏化方法,通过后训练专家剪枝(Expert Pruning)和动态专家跳跃(Dynamic Expert Skipping),显著降低了 MoE 模型的内存占用并提升了推理速度,同时保持了较高的性能。
2025-05-19 15:55:36
1133
原创 哈希层在大型稀疏模型中的应用——一种简单高效的MOE路由策略
Facebook AI Research团队在论文《Hash Layers For Large Sparse Models》中提出了一种基于哈希的路由策略,称为“哈希层”(Hash Layer),为MoE模型提供了一种简单、高效且无需学习路由参数的替代方案。
2025-05-19 15:09:54
753
原创 《On the Representation Collapse of Sparse Mixture of Experts》:解决MoE表示崩塌问题
SMoE的路由机制可能导致表示崩塌(representation collapse),从而限制模型的表达能力。《On the Representation Collapse of Sparse Mixture of Experts》一文(NeurIPS 2022)深入分析了这一问题,并提出了一种创新的路由算法(X-MoE),有效缓解表示崩塌并提升模型性能。
2025-05-19 13:55:33
807
原创 《Lost in the Middle: How Language Models Use Long Contexts》研究方法与贡献
论文将U形性能曲线与心理学中的“序列位置效应”(serial-position effect)相联系,指出尽管Transformer自注意力机制理论上对所有位置平等处理,实际表现却类似人类记忆的首因和近因效应,这一发现为理解模型行为提供了跨学科视角。
2025-05-18 18:57:08
745
原创 UMoE:统一注意力与FFN的混合专家模型
论文《UMoE: Unifying Attention and FFN with Shared Experts》提出了一种新颖的MoE架构——UMoE,通过重新定义注意力机制,统一了注意力层和FFN层的MoE设计,实现了参数共享和性能提升。
2025-05-18 18:27:13
920
原创 Transformer中两层FFN近似方法:σ-MoE的提出
《Approximating Two-Layer Feedforward Networks for Efficient Transformers》
2025-05-16 20:45:04
891
原创 解析SwitchHead的Mixture-of-Experts注意力机制
NeurIPS 2024发表的论文《SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention》
2025-05-16 20:18:42
1321
原创 Transformer前馈层的键值记忆机制
《Transformer Feed-Forward Layers Are Key-Value Memories》
2025-05-16 16:12:23
251
原创 深入解析《Generalizable Reward Model (GRM)》:提升奖励模型泛化能力的创新方法
NeurIPS 2024 收录的论文《Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs》
2025-05-16 14:38:20
853
原创 Skywork-VL Reward:多模态奖励模型的突破性进展
《Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning》
2025-05-16 13:48:19
549
原创 强化学习(RLVR)真的能提升大语言模型的推理能力吗?——解读最新研究
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
2025-05-15 18:59:17
484
原创 深入解析Mixture of Attention Heads (MoA):革新Transformer注意力机制
《Mixture of Attention Heads: Selecting Attention Heads Per Token》
2025-05-14 17:37:16
769
原创 Mixture-of-Depths:动态分配计算资源的Transformer新方法
《Mixture-of-Depths: Dynamically allocating compute in transformer-based language models》
2025-05-14 14:14:43
787
原创 介绍《THE UNREASONABLE INEFFECTIVENESS OF THE DEEPER LAYERS》:Transformer深层参数的冗余性与优化空间
揭示了Transformer深层参数的冗余性和浅层在知识存储中的重要性,为模型压缩和参数效率优化提供了重要启发。
2025-05-14 13:31:41
672
原创 ShortGPT:揭示大型语言模型的层冗余与高效压缩
《ShortGPT: Layers in Large Language Models are More Redundant Than You Expect》
2025-05-12 19:41:16
1258
原创 Mixture of Lookup Experts:革新MoE架构的高效推理方案
MoE在推理过程中面临两大瓶颈:高显存(VRAM)占用和专家动态加载带来的延迟。论文《Mixture of Lookup Experts》(MoLE)提出了一种创新的MoE变种,通过将专家从前馈神经网络(FFN)重参数化为查找表(LUT),显著降低了显存需求和通信延迟,同时保持与MoE相当的性能。
2025-05-11 19:53:22
918
原创 Flow-GRPO:将在线强化学习融入Flow Matching模型的创新
《Flow-GRPO: Training Flow Matching Models via Online RL》
2025-05-11 14:39:52
821
原创 Vision Transformer中Skip Connection与条件数的分析(Always Skip Attention)
ViT中自注意力机制的一个关键问题:其输出嵌入的条件数(condition number)在没有跳跃连接(skip connection)的情况下会显著恶化,导致训练不稳定甚至失败。
2025-05-10 21:26:15
710
原创 跨语言推理中的测试时扩展《Crosslingual Reasoning through Test-Time Scaling》
探讨了以英语为中心训练的推理语言模型(RLMs)在多语言环境下的表现。这篇论文不仅揭示了测试时计算扩展(test-time scaling)在跨语言推理中的潜力,还深入分析了语言混合模式、语言强制策略以及跨领域泛化的局限性。
2025-05-10 20:34:28
826
原创 Transformer-Squared(Transformer²):自适应大语言模型的创新框架
2025年ICLR会议论文《Transformer-Squared: Self-Adaptive LLMs》提出了一种名为 Transformer² 的自适应框架,通过引入 Singular Value Fine-tuning (SVF) 和两阶段推理机制,显著提升了LLM的适应性和效率。
2025-05-09 19:23:21
566
原创 探索更高效的Transformer:解读《Primer: Searching for Efficient Transformers for Language Modeling》
核心在于其创新的搜索空间(基于原始操作的DNA结构)和搜索方法(Regularized Evolution with Hurdles),发现了平方ReLU和MDHA两项简单而强大的修改。这些修改在多种规模、数据集和代码库中显著降低了训练成本
2025-05-09 16:53:42
780
原创 Squared ReLU:Transformer中的高效激活函数
Squared ReLU 的设计灵感来源于对高阶多项式激活函数的研究。虽然 rectified 形式的二次多项式激活函数在神经网络中并不常见,但研究表明它在 Transformer 模型中表现出色,尤其是在自然语言处理任务中,能够显著提升训练速度和模型性能。
2025-05-09 16:45:22
668
原创 Llama-Nemotron系列:高效推理与开源贡献
2025年5月,NVIDIA发布了《Llama-Nemotron: Efficient Reasoning Models》论文,推出了Llama-Nemotron系列模型(LN-Nano 8B、LN-Super 49B、LN-Ultra 253B)。
2025-05-09 15:33:48
965
原创 FFN Fusion 技术解析:加速大型语言模型推理
FFN Fusion 的初步研究表明,甚至包含注意力层和 FFN 层的完整 Transformer 块在某些情况下也可以并行化。
2025-05-09 14:37:52
1122
原创 Puzzle框架:基于NAS的推理优化LLM的突破性贡献
NVIDIA团队在论文《PUZZLE: DISTILLATION-BASED NAS FOR INFERENCE-OPTIMIZED LLMS》中提出了Puzzle框架,通过神经架构搜索(NAS)和知识蒸馏技术,优化LLM的推理效率,同时保留其性能。
2025-05-08 19:31:10
722
原创 LANA(Latency-Aware Network Acceleration):基于神经架构搜索的延迟感知网络加速技术
LANA通过创新的两阶段框架和整数线性优化,显著提升了神经网络加速的效率和效果。其逐层操作、超大搜索空间支持以及快速搜索能力,为深度学习研究者提供了宝贵的参考。
2025-05-08 16:10:38
579
李永乐线代强化笔记2020年.rar
2020-10-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人