
LLM
文章平均质量分 92
大模型知识、技术积累。https://github.com/shizhengLi/DeepLearning.AI
阿正的梦工坊
岁月不饶人,我亦未曾饶过岁月
展开
-
探索数据污染(Data Contamination)对语言模型预训练的影响
《Investigating Data Contamination for Pre-training Language Models》原创 2025-04-25 18:45:12 · 993 阅读 · 0 评论 -
大语言模型在医学推理中的元认知缺陷:MetaMedQA基准的启示
模型的元认知能力——即自我评估和识别知识局限的能力——在医疗决策中至关重要,却鲜有研究深入探讨。发表在《Nature Communications》(2025年)的文章《Large Language Models lack essential metacognition for reliable medical reasoning》通过引入MetaMedQA基准,系统评估了12个LLM在医学推理中的元认知能力,揭示了当前模型的显著缺陷。原创 2025-04-25 17:06:59 · 1010 阅读 · 0 评论 -
Ehud Reiter博客《基准测试让我们偏离真正重要的事情》观点总结
Ehud Reiter的《基准测试让我们偏离真正重要的事情》深刻批判了当前LLM基准测试的局限性,指出其对易于测量任务的过度关注忽视了用户真正关心的能力,如情绪适当性。他通过分析健康、法律和软件开发领域的案例,呼吁开发更全面、现实导向的评估体系。原创 2025-04-25 15:59:29 · 774 阅读 · 0 评论 -
Ehud Reiter博客《我想要一个情绪困扰基准测试》观点总结
Ehud Reiter的《我想要一个情绪困扰基准测试》提出了一种创新的LLM评估思路,聚焦于生成文本的情绪安全性,特别是在健康信息和支持领域。原创 2025-04-25 15:54:57 · 606 阅读 · 0 评论 -
Ehud Reiter博客《LLM编码基准测试是否衡量现实世界效用》观点总结
Ehud Reiter的《LLM编码基准测试是否衡量现实世界效用》深入探讨了编码基准测试(如SWE-bench)与现实世界效用评估(如Pandey等人研究)的差异。原创 2025-04-25 15:49:04 · 674 阅读 · 0 评论 -
Ehud Reiter博客《我们需要更好的LLM基准测试》观点总结
提出了优质基准测试和套件的具体标准。他的分析不仅指出了当前测试的局限性(如数据污染、低挑战性、缺乏现实世界关联),还通过现实案例和改进建议为未来发展指明方向。原创 2025-04-25 15:39:41 · 604 阅读 · 0 评论 -
Ehud Reiter博客观点总结:大型语言模型(LLM)基准测试忽视了自然语言生成(NLG)?
Reiter的博客揭示了LLM评估中的一个关键盲点:尽管LLMs被广泛用于文本生成,但其生成能力的评估却严重不足。原创 2025-04-25 15:34:47 · 720 阅读 · 0 评论 -
解读2000+多语言基准的经验教训:大模型多语言现象与挑战
《The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks》原创 2025-04-25 15:10:12 · 690 阅读 · 0 评论 -
使用稀疏自编码器(Sparse Autoencoders, SAEs)提升语言模型的可解释性
Cunningham 等人在论文《Sparse Autoencoders Find Highly Interpretable Features in Language Models》中提出了一种基于稀疏自编码器(Sparse Autoencoders, SAEs)的无监督方法,旨在解决语言模型中特征的多义性(Polysemanticity)和叠加(Superposition)问题,从而提取更具可解释性和单义性(Monosemantic)的特征。原创 2025-04-23 19:23:14 · 1273 阅读 · 0 评论 -
ReAttention方法介绍:无限上下文的训练无关解决方案
ICLR 2025发表的论文《ReAttention: Training-Free Infinite Context with Finite Attention Scope》原创 2025-04-23 17:01:19 · 961 阅读 · 0 评论 -
“Motivated reasoning”(动机推理):认知偏见与大语言模型的交汇
动机推理作为一种普遍的认知现象,不仅塑造了人类的信息处理方式,也在某种程度上影响了大语言模型的行为。通过分析 Claude 的“伪动机推理”,我们看到 LLM 如何在复杂任务中模仿人类的选择性证据使用和目标导向推理。原创 2025-04-21 16:46:33 · 785 阅读 · 0 评论 -
经验时代:解读 David Silver 与 Richard S. Sutton 的新作《Welcome to the Era of Experience》
经验时代的四大维度——经验流、丰富交互、环境奖励和非人类推理——为这一愿景提供了具体的实现框架。原创 2025-04-21 13:54:09 · 1828 阅读 · 0 评论 -
KL散度近似方法介绍:从John Schulman的博客到DeepSeek GRPO的应用
John Schulman在其2020年3月7日的博客中详细探讨了如何通过蒙特卡洛方法近似KL散度,并提出了一种低方差、无偏的估计器。这一方法不仅在理论上具有重要意义,还被DeepSeek的GRPO算法所采用。原创 2025-04-20 18:21:29 · 814 阅读 · 0 评论 -
REINFORCE++:强化学习从人类反馈(RLHF)的简洁高效新选择
本文将深入介绍 REINFORCE++ 的核心思想、算法细节、与 PPO 的区别,以及其在 RLHF 背景下的优势和意义,特别针对疑问“REINFORCE++ 和 PPO 的区别是什么?不就是把 advantage 换了?”进行详细解答。通过数学公式、直观解释和专业洞见,帮助读者深刻理解这一算法。原创 2025-04-20 16:38:21 · 455 阅读 · 0 评论 -
强化学习的核心问题:延迟信号归因(Credit Assignment Problem)与探索-利用权衡(Exploration-Exploitation Trade-off)
强化学习的两个核心问题——延迟信号的归因问题和探索-利用的权衡——是阻碍其广泛应用的关键挑战。归因问题要求智能体在时间跨度长、因果关系复杂的情况下,准确分配奖励;而探索-利用权衡则要求智能体在有限资源下平衡短期收益和长期潜力。原创 2025-04-19 23:34:11 · 522 阅读 · 0 评论 -
PPO损失函数中的新旧策略比例并乘以优势解析:通过NLP的一个例子解释
本文将深入探讨PPO损失函数中为什么使用新旧策略的比例,而不是直接使用新策略,以及新旧策略比例与优势值的乘积的意义。为了让内容更直观,我们将通过一个NLP任务的例子(生成对话回复)来解释这些概念。原创 2025-04-19 23:12:04 · 595 阅读 · 0 评论 -
REINFORCE算法:强化学习的经典策略梯度方法及其在RLHF背景下的洞见
本文将深入探讨REINFORCE算法的思路、数学细节、Baseline增强形式、其他变体,以及其在RLHF背景下的意义与局限,为专业人士提供深刻的洞见。原创 2025-04-19 22:51:20 · 781 阅读 · 0 评论 -
《The Bitter Lesson》AI的苦涩教训:计算与通用方法的胜利
在人工智能(AI)发展的70年历程中,强化学习(RL)领域的先驱Rich Sutton于2019年发表了《The Bitter Lesson》一文,提出了一个深刻而发人深省的观点:在AI研究中,依赖计算能力的通用方法最终总是最有效的,且优势显著。原创 2025-04-19 22:05:59 · 559 阅读 · 0 评论 -
《The Second Half》AI的第二半场:从方法突破到问题定义
AI的焦点转向了评测(evaluation)的重新定义。下半场的游戏规则可以总结为:1. 开发针对现实世界效用(utility)的新评测体系或任务。2. 使用配方解决这些任务,或通过新方法增强配方,持续迭代。原创 2025-04-19 21:56:26 · 691 阅读 · 0 评论 -
WARM:通过权重平均奖励模型提升RLHF的鲁棒性与可靠性(代码实现)
Google DeepMind的论文《WARM: On the Benefits of Weight Averaged Reward Models》原创 2025-04-19 16:56:38 · 951 阅读 · 0 评论 -
DPO中的长度剥削问题与创新性正则化解决方案
Disentangling Length from Quality in Direct Preference Optimization原创 2025-04-19 14:20:24 · 679 阅读 · 0 评论 -
无需思考的推理模型依然有效:Reasoning Models Can Be Effective Without Thinking
论文最重要的理论贡献是挑战了显式思考过程的必要性。实验表明,即使在经过强化学习或CoT微调的推理模型中,显式思考可能并非性能提升的唯一途径。NoThinking的成功表明,模型可能通过训练过程中内化的推理能力直接生成高质量答案。这一发现为高效推理提供了新的视角。原创 2025-04-18 20:16:07 · 655 阅读 · 0 评论 -
探索Transformer中的注意力沉没(attention sink)现象:为何LLMs偏爱首token?
《Why do LLMs attend to the first token?》原创 2025-04-16 21:11:29 · 759 阅读 · 0 评论 -
语言生成建模为Token级 Markov 决策过程(Token-Level MDP)详解
Markov 决策过程(MDP)是一种数学框架,用于建模序列决策问题,特别适合描述智能体(agent)与环境(environment)交互并通过学习策略(policy)最大化累积奖励(cumulative reward)的场景。MDP 的核心假设是马尔可夫性,即未来的状态和奖励仅依赖于当前状态和动作,而与历史无关。原创 2025-04-16 15:03:03 · 291 阅读 · 0 评论 -
ByteDance Seed团队提出VAPO:高效解决长链推理任务的强化学习框架
VAPO(Value-based Augmented Proximal Policy Optimization)原创 2025-04-16 14:49:46 · 1231 阅读 · 0 评论 -
ByteDance Seed团队:解锁PPO在长链思考任务中的潜力——VC-PPO的创新突破(一):原理介绍
《What's Behind PPO's Collapse in Long-CoT? Value Optimization Holds the Secret》原创 2025-04-14 18:00:53 · 859 阅读 · 0 评论 -
ByteDance Seed团队:Value-Calibrated Proximal Policy Optimization (VC-PPO)(二)代码实现
解决Long-COT的问题,代码实现原创 2025-04-14 17:58:17 · 722 阅读 · 0 评论 -
深入解析相对位置编码:从Transformer到Relative Position Representations
2018年,Peter Shaw等人在论文《Self-Attention with Relative Position Representations》中首次提出了相对位置编码(Relative Position Representations)的概念,为Transformer引入了一种更灵活、更高效的位置信息建模方式。原创 2025-04-11 18:18:40 · 678 阅读 · 0 评论 -
Anthropic的论文探讨推理模型的CoT忠实性(faithfulness):它们并不总是“说真话”
Anthropic的Alignment Science团队在最新论文《Reasoning Models Don't Always Say What They Think》中揭示了一个关键问题:CoT并不总是忠实地反映模型的真实推理过程。原创 2025-04-04 16:12:16 · 619 阅读 · 0 评论 -
Transfusion:用单一多模态模型预测下一个Token并扩散生成图像(代码实现)
Transfusion为多模态建模开辟了一条新路。它表明,我们无需在离散和连续模态间妥协,而是可以通过混合训练目标和灵活的注意力机制,在单一模型中兼得两者的优势。原创 2025-03-30 19:21:47 · 1049 阅读 · 0 评论 -
深入解析 InfoNCE Loss:对比学习的基石(是在什么背景下提出来的?)
在《Contrastive Predictive Coding (CPC)》论文中,作者将其用于无监督表示学习,目标是让模型从高维数据中提取有用的表示。简单来说,InfoNCE Loss 的核心思想是:通过对比正样本和一组负样本,训练模型区分“相关”和“不相关”的数据对,从而捕获数据的深层语义信息。原创 2025-03-29 20:37:01 · 717 阅读 · 0 评论 -
如何在恢复性训练中保持 WandB 日志连续性:添加export WANDB_RUN_ID
本文将详细介绍这个问题的原因,并提供一个简单实用的解决方案,帮助你在恢复性训练时保持 WandB 日志的连续性。原创 2025-03-27 20:22:47 · 582 阅读 · 0 评论 -
分词(tokenization)算法之SentencePiece Tokenizer 及其在 T5 中的应用详解
本文将详细介绍 SentencePiece 的原理、实现方式、特点,以及它在 T5 中的具体应用,面向深度学习研究者提供深入解析。原创 2025-03-27 14:12:13 · 859 阅读 · 0 评论 -
分词(tokenization)算法之WordPiece 算法详解(代码实现)
WordPiece 是 BPE 的一个重要改进,通过引入最大化似然概率的评分机制,克服了 BPE 单纯依赖频率的局限性。它在 BERT 等模型中证明了其价值,尤其在需要语义相关性和语言模型支持的场景中表现出色。原创 2025-03-27 13:59:19 · 893 阅读 · 0 评论 -
分词(tokenization)算法之Byte Pair Encoding (BPE) 算法详解(代码实现)
BPE 的基本思想可以用一句话概括:从字符级别开始,通过统计频率最高的字符对或子词对,逐步构建一个词汇表,用于表示文本中的单词或子词单元。 这种方法既能保留词的语义信息,又能灵活处理未见过的新词(out-of-vocabulary, OOV),在深度学习模型中表现出色。原创 2025-03-27 13:41:10 · 738 阅读 · 0 评论 -
深入解析 DeepSpeed 日志:OVERFLOW和Skipping step是什么,mom是什么?
踩坑记录原创 2025-03-26 22:01:03 · 1022 阅读 · 0 评论 -
DeepSpeed遇到CUDA_VISIBLE_DEVICE不管用和ValueError(f“No slot ‘{slot}‘ specified on host ‘{hostname}‘“)解决方法
踩坑记录原创 2025-03-26 21:28:32 · 402 阅读 · 0 评论 -
SiLU与GeLU激活函数:现代大模型的选择
为什么这些激活函数会成为新宠?它们又有哪些优越的性质呢?本文将为你详细解析。原创 2025-03-26 19:52:37 · 1251 阅读 · 0 评论 -
PIXART-α 模型结构详解:高效 Transformer-based T2I Diffusion 模型
PIXART-α 的模型结构通过在 DiT 上引入交叉注意力、优化 adaLN 为 adaLN-single 并结合重参数化技术,实现了高效且高质量的 T2I 生成。原创 2025-03-26 18:52:07 · 1076 阅读 · 0 评论 -
深入解析Instruction Tuning 的 Loss 计算(基于 Open-Instruct 框架)
损失是基于自回归语言建模的交叉熵损失,计算模型预测下一个token的准确性。结合instruction tuning,模型通过这种方式学习生成与指令匹配的回复。原创 2025-03-25 14:17:18 · 892 阅读 · 0 评论