自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

阿正的梦工坊

时间的朋友

  • 博客(2170)
  • 资源 (6)
  • 收藏
  • 关注

原创 探索多语言大型语言模型中的跨语言事实知识一致性Cross-Lingual Consistency of Factual Knowledge

Cross-Lingual Consistency of Factual Knowledge in Multilingual Language Models

2025-05-23 20:50:25 671

原创 Source-Contrastive and Language-Contrastive Decoding解决翻译中的幻觉和目标语言错误

《Mitigating Hallucinations and Off-target Machine Translation with Source-Contrastive and Language-Contrastive Decoding》提出了一种创新的对比解码方法,旨在通过修改解码目标来缓解这些问题,而无需重新训练模型或依赖外部模型。

2025-05-23 19:23:03 451

原创 介绍 SeaEval:多语言基础模型的全面评估基准

《SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning》

2025-05-23 18:17:49 512

原创 用控制任务设计和解释探针:《Designing and Interpreting Probes with Control Tasks》

将单词或句子转化为高维向量,捕获它们的语义和语法信息。然而,一个关键问题困扰着研究者:这些表示到底学到了什么?它们是否真正编码了语言的结构,比如词性(part-of-speech)或句法关系?

2025-05-23 16:04:09 552

原创 探讨大型语言模型在字符组成理解上的局限性——解读《Large Language Models Lack Understanding of Character Composition of Words》

中稿ICML 2024 Workshop on Large Language Models and Cognition

2025-05-22 20:55:33 561

原创 揭秘语言模型中的“流氓维度”:Transformer模型表征质量的隐藏问题

2021年由William Timkey和Marten van Schijndel发表的论文《All Bark and No Bite: Rogue Dimensions in Transformer Language Models Obscure Representational Quality》(全吠无咬:Transformer语言模型中的流氓维度掩盖了表征质量)深入探讨了这些问题,揭示了所谓的“流氓维度”(rogue dimensions)如何干扰相似性度量,并提出了简单的后处理方法来改善表征分析。

2025-05-22 20:29:29 673

原创 探索Transformer的内部机制:Tuned Lens方法详解

《Eliciting Latent Predictions from Transformers with the Tuned Lens》

2025-05-22 18:48:49 455

原创 探索大语言模型的推理鲁棒性:《The Remarkable Robustness of LLMs: Stages of Inference?》

他们通过对模型层进行删除和交换的干预实验,揭示了LLMs在推理过程中的四个普适阶段:解分词(Detokenization)、特征工程(Feature Engineering)、预测集成(Prediction Ensembling)和残差锐化(Residual Sharpening)

2025-05-22 14:36:27 888

原创 边缘归因修补(Edge Attribution Patching, EAP):Attribution Patching Outperforms Automated Circuit Discovery

EAP将语言模型视为一个有向无环图(DAG),节点为注意力头或MLP,边表示节点之间的激活依赖。EAP的核心思想是通过线性近似来估计每条边对任务输出(例如损失或对数差)的贡献,从而快速识别重要子网络。

2025-05-21 19:29:01 1594

原创 SparseMixer:为 MoE 训练提供高效稀疏梯度估计 (第一部分)

论文《Sparse Backpropagation for MoE Training》

2025-05-21 15:13:30 635

原创 SparseMixer:为 MoE 训练提供高效稀疏梯度估计(第二部分,公式详细解释)

3 FROM DISCRETE TO SPARSE: SPARSEMIXER解释

2025-05-21 15:05:19 711

原创 FlexiDepth:Adaptive Layer-skipping in Pre-trained LLMs

FlexiDepth通过动态层跳跃、轻量级路由器和适配器,为预训练LLM提供了高效的优化方案。

2025-05-21 13:54:53 953

原创 SEER-MoE:通过正则化实现稀疏专家模型的高效优化

《SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts》

2025-05-20 21:06:40 552

原创 Router-Tuning:一种高效的动态深度调整方法

《Router-Tuning: A Simple and Effective Approach for Dynamic Depth》

2025-05-20 19:03:52 996

原创 高效部署MoE大语言模型:专家剪枝与动态跳跃的突破

《Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models》提出了一种创新的专家级稀疏化方法,通过后训练专家剪枝(Expert Pruning)和动态专家跳跃(Dynamic Expert Skipping),显著降低了 MoE 模型的内存占用并提升了推理速度,同时保持了较高的性能。

2025-05-19 15:55:36 1133

原创 哈希层在大型稀疏模型中的应用——一种简单高效的MOE路由策略

Facebook AI Research团队在论文《Hash Layers For Large Sparse Models》中提出了一种基于哈希的路由策略,称为“哈希层”(Hash Layer),为MoE模型提供了一种简单、高效且无需学习路由参数的替代方案。

2025-05-19 15:09:54 753

原创 《On the Representation Collapse of Sparse Mixture of Experts》:解决MoE表示崩塌问题

SMoE的路由机制可能导致表示崩塌(representation collapse),从而限制模型的表达能力。《On the Representation Collapse of Sparse Mixture of Experts》一文(NeurIPS 2022)深入分析了这一问题,并提出了一种创新的路由算法(X-MoE),有效缓解表示崩塌并提升模型性能。

2025-05-19 13:55:33 807

原创 《Lost in the Middle: How Language Models Use Long Contexts》研究方法与贡献

论文将U形性能曲线与心理学中的“序列位置效应”(serial-position effect)相联系,指出尽管Transformer自注意力机制理论上对所有位置平等处理,实际表现却类似人类记忆的首因和近因效应,这一发现为理解模型行为提供了跨学科视角。

2025-05-18 18:57:08 745

原创 UMoE:统一注意力与FFN的混合专家模型

论文《UMoE: Unifying Attention and FFN with Shared Experts》提出了一种新颖的MoE架构——UMoE,通过重新定义注意力机制,统一了注意力层和FFN层的MoE设计,实现了参数共享和性能提升。

2025-05-18 18:27:13 920

原创 Transformer中两层FFN近似方法:σ-MoE的提出

《Approximating Two-Layer Feedforward Networks for Efficient Transformers》

2025-05-16 20:45:04 891

原创 解析SwitchHead的Mixture-of-Experts注意力机制

NeurIPS 2024发表的论文《SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention》

2025-05-16 20:18:42 1321

原创 Transformer前馈层的键值记忆机制

《Transformer Feed-Forward Layers Are Key-Value Memories》

2025-05-16 16:12:23 251

原创 深入解析《Generalizable Reward Model (GRM)》:提升奖励模型泛化能力的创新方法

NeurIPS 2024 收录的论文《Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs》

2025-05-16 14:38:20 853

原创 Skywork-VL Reward:多模态奖励模型的突破性进展

《Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning》

2025-05-16 13:48:19 549

原创 强化学习(RLVR)真的能提升大语言模型的推理能力吗?——解读最新研究

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

2025-05-15 18:59:17 484

原创 深入解析Mixture of Attention Heads (MoA):革新Transformer注意力机制

《Mixture of Attention Heads: Selecting Attention Heads Per Token》

2025-05-14 17:37:16 769

原创 Mixture-of-Depths:动态分配计算资源的Transformer新方法

《Mixture-of-Depths: Dynamically allocating compute in transformer-based language models》

2025-05-14 14:14:43 787

原创 介绍《THE UNREASONABLE INEFFECTIVENESS OF THE DEEPER LAYERS》:Transformer深层参数的冗余性与优化空间

揭示了Transformer深层参数的冗余性和浅层在知识存储中的重要性,为模型压缩和参数效率优化提供了重要启发。

2025-05-14 13:31:41 672

原创 ShortGPT:揭示大型语言模型的层冗余与高效压缩

《ShortGPT: Layers in Large Language Models are More Redundant Than You Expect》

2025-05-12 19:41:16 1258

原创 Mixture of Lookup Experts:革新MoE架构的高效推理方案

MoE在推理过程中面临两大瓶颈:高显存(VRAM)占用和专家动态加载带来的延迟。论文《Mixture of Lookup Experts》(MoLE)提出了一种创新的MoE变种,通过将专家从前馈神经网络(FFN)重参数化为查找表(LUT),显著降低了显存需求和通信延迟,同时保持与MoE相当的性能。

2025-05-11 19:53:22 918

原创 Flow-GRPO:将在线强化学习融入Flow Matching模型的创新

《Flow-GRPO: Training Flow Matching Models via Online RL》

2025-05-11 14:39:52 821

原创 Vision Transformer中Skip Connection与条件数的分析(Always Skip Attention)

ViT中自注意力机制的一个关键问题:其输出嵌入的条件数(condition number)在没有跳跃连接(skip connection)的情况下会显著恶化,导致训练不稳定甚至失败。

2025-05-10 21:26:15 710

原创 跨语言推理中的测试时扩展《Crosslingual Reasoning through Test-Time Scaling》

探讨了以英语为中心训练的推理语言模型(RLMs)在多语言环境下的表现。这篇论文不仅揭示了测试时计算扩展(test-time scaling)在跨语言推理中的潜力,还深入分析了语言混合模式、语言强制策略以及跨领域泛化的局限性。

2025-05-10 20:34:28 826

原创 Transformer-Squared(Transformer²):自适应大语言模型的创新框架

2025年ICLR会议论文《Transformer-Squared: Self-Adaptive LLMs》提出了一种名为 Transformer² 的自适应框架,通过引入 Singular Value Fine-tuning (SVF) 和两阶段推理机制,显著提升了LLM的适应性和效率。

2025-05-09 19:23:21 566

原创 探索更高效的Transformer:解读《Primer: Searching for Efficient Transformers for Language Modeling》

核心在于其创新的搜索空间(基于原始操作的DNA结构)和搜索方法(Regularized Evolution with Hurdles),发现了平方ReLU和MDHA两项简单而强大的修改。这些修改在多种规模、数据集和代码库中显著降低了训练成本

2025-05-09 16:53:42 780

原创 Squared ReLU:Transformer中的高效激活函数

Squared ReLU 的设计灵感来源于对高阶多项式激活函数的研究。虽然 rectified 形式的二次多项式激活函数在神经网络中并不常见,但研究表明它在 Transformer 模型中表现出色,尤其是在自然语言处理任务中,能够显著提升训练速度和模型性能。

2025-05-09 16:45:22 668

原创 Llama-Nemotron系列:高效推理与开源贡献

2025年5月,NVIDIA发布了《Llama-Nemotron: Efficient Reasoning Models》论文,推出了Llama-Nemotron系列模型(LN-Nano 8B、LN-Super 49B、LN-Ultra 253B)。

2025-05-09 15:33:48 965

原创 FFN Fusion 技术解析:加速大型语言模型推理

FFN Fusion 的初步研究表明,甚至包含注意力层和 FFN 层的完整 Transformer 块在某些情况下也可以并行化。

2025-05-09 14:37:52 1122

原创 Puzzle框架:基于NAS的推理优化LLM的突破性贡献

NVIDIA团队在论文《PUZZLE: DISTILLATION-BASED NAS FOR INFERENCE-OPTIMIZED LLMS》中提出了Puzzle框架,通过神经架构搜索(NAS)和知识蒸馏技术,优化LLM的推理效率,同时保留其性能。

2025-05-08 19:31:10 722

原创 LANA(Latency-Aware Network Acceleration):基于神经架构搜索的延迟感知网络加速技术

LANA通过创新的两阶段框架和整数线性优化,显著提升了神经网络加速的效率和效果。其逐层操作、超大搜索空间支持以及快速搜索能力,为深度学习研究者提供了宝贵的参考。

2025-05-08 16:10:38 579

李永乐线代强化笔记2020年.rar

李老师对出题形式、考试重点了如指掌,解题思路极其灵活,辅导针对性极强,效果优良,成绩显著,受到广大学员的交口称赞!这是笔者自己的笔记,整理成pdf版,方便大家复习使用。

2020-10-27

李永乐线代基础班笔记.zip

李永乐线性代数基础班笔记2020年。用过了都说好!好在思路与题型的延伸方面。举一反三(举一反N也不夸张)

2020-09-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除