- 博客(2123)
- 资源 (6)
- 收藏
- 关注
原创 解读《Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena》的贡献
核心洞见在于:强大的LLM(如GPT-4)可以作为人类偏好的可扩展代理,而新设计的基准能够更好捕捉模型在开放式任务中的表现。
2025-04-30 14:29:25
229
原创 揭秘大语言模型的“线性表示假设”:从概念到几何学的通俗解读
The Linear Representation Hypothesis and the Geometry of Large Language Models》
2025-04-27 18:41:01
1007
原创 小红书(Xiaohongshu)深度投资分析报告
小红书(Xiaohongshu)成立于2013年,是中国领先的生活方式分享和社交电商平台。公司由85后武汉籍夫妻毛文超和瞿芳共同创立
2025-04-27 17:42:48
1040
原创 置换检验(Permutation Test)与 p 值:从统计学到数据污染检测的桥梁
置换检验是一种非参数统计方法,通过随机打乱数据的标签或顺序,生成一个“随机分布”,从而评估观察到的统计量(例如两组均值差异)是否显著。它的核心思想是:如果样本间的差异是随机的,那么打乱标签后重新计算的统计量应该与原始统计量相似;如果差异显著,则原始统计量在随机分布中会显得“异常”。
2025-04-26 15:03:53
920
原创 跨语言数据污染(Data Contamination):揭示LLM评估中的隐秘挑战
加州大学圣地亚哥分校的研究团队在论文《Data Contamination Can Cross Language Barriers》中系统探讨了这一问题,提出了一种跨语言污染形式,并设计了基于泛化能力的检测方法,为NLP研究者提供了重要的洞见。
2025-04-26 14:55:47
915
原创 英国博物馆深度报告
英国博物馆始于1753年大英博物馆(British Museum)的成立,该馆于1759年正式向公众开放,以“全人类利益为宗旨,收藏代表世界各地文化的珍品”
2025-04-26 13:27:52
773
原创 Attention机制中的跨句子注意力
在某些场景中,我们会遇到一种更复杂的情况——对两句话(例如句子A和句子B)进行Attention计算,且两句话的长度可能不同。这种机制被称为“跨句子注意力”(Cross-Sentence Attention),本文将详细介绍其原理、应用场景和实现方式。
2025-04-25 23:12:43
630
原创 解锁大模型的“黑盒”:Boundless Distributed Alignment Search (DAS)如何让 AI 更透明
《Interpretability at Scale: Identifying Causal Mechanisms in Alpaca》
2025-04-25 22:40:16
926
原创 探索数据污染(Data Contamination)对语言模型预训练的影响
《Investigating Data Contamination for Pre-training Language Models》
2025-04-25 18:45:12
993
原创 大语言模型在医学推理中的元认知缺陷:MetaMedQA基准的启示
模型的元认知能力——即自我评估和识别知识局限的能力——在医疗决策中至关重要,却鲜有研究深入探讨。发表在《Nature Communications》(2025年)的文章《Large Language Models lack essential metacognition for reliable medical reasoning》通过引入MetaMedQA基准,系统评估了12个LLM在医学推理中的元认知能力,揭示了当前模型的显著缺陷。
2025-04-25 17:06:59
1009
原创 Ehud Reiter博客《基准测试让我们偏离真正重要的事情》观点总结
Ehud Reiter的《基准测试让我们偏离真正重要的事情》深刻批判了当前LLM基准测试的局限性,指出其对易于测量任务的过度关注忽视了用户真正关心的能力,如情绪适当性。他通过分析健康、法律和软件开发领域的案例,呼吁开发更全面、现实导向的评估体系。
2025-04-25 15:59:29
774
原创 Ehud Reiter博客《我想要一个情绪困扰基准测试》观点总结
Ehud Reiter的《我想要一个情绪困扰基准测试》提出了一种创新的LLM评估思路,聚焦于生成文本的情绪安全性,特别是在健康信息和支持领域。
2025-04-25 15:54:57
606
原创 Ehud Reiter博客《LLM编码基准测试是否衡量现实世界效用》观点总结
Ehud Reiter的《LLM编码基准测试是否衡量现实世界效用》深入探讨了编码基准测试(如SWE-bench)与现实世界效用评估(如Pandey等人研究)的差异。
2025-04-25 15:49:04
673
原创 Ehud Reiter博客《我们需要更好的LLM基准测试》观点总结
提出了优质基准测试和套件的具体标准。他的分析不仅指出了当前测试的局限性(如数据污染、低挑战性、缺乏现实世界关联),还通过现实案例和改进建议为未来发展指明方向。
2025-04-25 15:39:41
604
原创 Ehud Reiter博客观点总结:大型语言模型(LLM)基准测试忽视了自然语言生成(NLG)?
Reiter的博客揭示了LLM评估中的一个关键盲点:尽管LLMs被广泛用于文本生成,但其生成能力的评估却严重不足。
2025-04-25 15:34:47
720
原创 多语言LLM评估的突破与未来方向
EACL 2024发表的论文《Are Large Language Model-based Evaluators the Solution to Scaling Up Multilingual Evaluation?》
2025-04-25 15:26:48
576
原创 解读2000+多语言基准的经验教训:大模型多语言现象与挑战
《The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks》
2025-04-25 15:10:12
687
原创 介绍分布式对齐搜索(DAS):神经网络因果抽象的新方法
《Finding Alignments Between Interpretable Causal Variables and Distributed Neural Representations》
2025-04-24 20:13:31
1001
原创 解读《Causal Abstractions of Neural Networks》:为神经网络行为提供因果解释
想象你在分析一个厨师(BERT)如何做一道菜(NLI任务)。你假设厨师按照某本食谱(C_NatLog)操作,例如先混合某些原料(子短语关系)。你检查厨师的工作台(内部表示),找到可能混合原料的位置(对齐搜索),然后替换原料(交换干预),看最终菜品是否符合食谱预期。如果一致,说明厨师确实遵循了食谱。
2025-04-24 14:46:06
833
原创 解读GPT-2 Small的间接对象识别(Indirect Object Identification, IOI)电路:从黑盒到可解释的Transformer机制
机械可解释性(Mechanistic Interpretability)研究旨在通过逆向工程,揭示模型权重所实现的算法,将复杂的非线性计算分解为可理解的组件。论文《Interpretability in the Wild: A Circuit for Indirect Object Identification in GPT-2 Small》是一项里程碑式的工作,首次详细剖析了GPT-2 Small在执行间接对象识别(Indirect Object Identification, IOI)任务时的内部计算电
2025-04-23 22:23:39
688
原创 探究语言模型中的性别偏见:基于因果中介分析的研究方法
Jesse Vig 等人在 2020 年发表的论文《Investigating Gender Bias in Language Models Using Causal Mediation Analysis》中提出了一种基于因果中介分析(Causal Mediation Analysis)的方法,用于剖析语言模型的内部机制。
2025-04-23 20:43:31
669
原创 使用稀疏自编码器(Sparse Autoencoders, SAEs)提升语言模型的可解释性
Cunningham 等人在论文《Sparse Autoencoders Find Highly Interpretable Features in Language Models》中提出了一种基于稀疏自编码器(Sparse Autoencoders, SAEs)的无监督方法,旨在解决语言模型中特征的多义性(Polysemanticity)和叠加(Superposition)问题,从而提取更具可解释性和单义性(Monosemantic)的特征。
2025-04-23 19:23:14
1271
原创 ReAttention方法介绍:无限上下文的训练无关解决方案
ICLR 2025发表的论文《ReAttention: Training-Free Infinite Context with Finite Attention Scope》
2025-04-23 17:01:19
960
原创 交叉熵(Cross-Entropy)和KL散度(Kullback-Leibler Divergence)的联系与区别
本文将深入探讨它们的定义、数学公式、联系与区别,并通过例子说明其意义。
2025-04-23 13:13:39
655
原创 解读语言模型的可解释性:对比解释(Contrastive Explanations)中梯度范数方法和梯度x输入方法解释
《Interpreting Language Models with Contrastive Explanations》
2025-04-22 21:53:56
779
原创 Activation Addition:一种无需优化的语言模型控制方法
ActAdd 是一种基于激活工程(Activation Engineering) 的推理时控制方法,其核心思想是通过在模型前向传播过程中注入特定的“引导向量”(Steering Vector),改变模型的激活状态,从而影响输出文本的高级属性(如情感、主题或风格)。
2025-04-21 20:37:55
960
原创 “Motivated reasoning”(动机推理):认知偏见与大语言模型的交汇
动机推理作为一种普遍的认知现象,不仅塑造了人类的信息处理方式,也在某种程度上影响了大语言模型的行为。通过分析 Claude 的“伪动机推理”,我们看到 LLM 如何在复杂任务中模仿人类的选择性证据使用和目标导向推理。
2025-04-21 16:46:33
785
原创 经验时代:解读 David Silver 与 Richard S. Sutton 的新作《Welcome to the Era of Experience》
经验时代的四大维度——经验流、丰富交互、环境奖励和非人类推理——为这一愿景提供了具体的实现框架。
2025-04-21 13:54:09
1823
原创 KL散度近似方法介绍:从John Schulman的博客到DeepSeek GRPO的应用
John Schulman在其2020年3月7日的博客中详细探讨了如何通过蒙特卡洛方法近似KL散度,并提出了一种低方差、无偏的估计器。这一方法不仅在理论上具有重要意义,还被DeepSeek的GRPO算法所采用。
2025-04-20 18:21:29
812
原创 REINFORCE++:强化学习从人类反馈(RLHF)的简洁高效新选择
本文将深入介绍 REINFORCE++ 的核心思想、算法细节、与 PPO 的区别,以及其在 RLHF 背景下的优势和意义,特别针对疑问“REINFORCE++ 和 PPO 的区别是什么?不就是把 advantage 换了?”进行详细解答。通过数学公式、直观解释和专业洞见,帮助读者深刻理解这一算法。
2025-04-20 16:38:21
454
原创 公允价值计量的秘密:企业资产负债表中的核心概念
公允价值(Fair Value),简单来说,就是一项资产或负债在当前市场条件下,买卖双方自愿交易时所能达成的价格。换句话说,它反映了资产或负债的“市场价值”,而不是账面上的历史成本或主观估计。
2025-04-20 14:17:59
651
原创 负债的重要性:会计恒等式(资产 = 负债 + 所有者权益),一定要有负债吗?
负债在会计恒等式中不仅是数字的体现,更是企业战略的工具。它能帮助企业放大资源、优化成本、抓住机会,但也伴随着风险。企业不一定非要有负债,但合理利用负债往往能让企业在竞争中脱颖而出。
2025-04-20 14:07:54
464
原创 强化学习的核心问题:延迟信号归因(Credit Assignment Problem)与探索-利用权衡(Exploration-Exploitation Trade-off)
强化学习的两个核心问题——延迟信号的归因问题和探索-利用的权衡——是阻碍其广泛应用的关键挑战。归因问题要求智能体在时间跨度长、因果关系复杂的情况下,准确分配奖励;而探索-利用权衡则要求智能体在有限资源下平衡短期收益和长期潜力。
2025-04-19 23:34:11
521
原创 PPO损失函数中的新旧策略比例并乘以优势解析:通过NLP的一个例子解释
本文将深入探讨PPO损失函数中为什么使用新旧策略的比例,而不是直接使用新策略,以及新旧策略比例与优势值的乘积的意义。为了让内容更直观,我们将通过一个NLP任务的例子(生成对话回复)来解释这些概念。
2025-04-19 23:12:04
595
原创 REINFORCE算法:强化学习的经典策略梯度方法及其在RLHF背景下的洞见
本文将深入探讨REINFORCE算法的思路、数学细节、Baseline增强形式、其他变体,以及其在RLHF背景下的意义与局限,为专业人士提供深刻的洞见。
2025-04-19 22:51:20
778
原创 《The Bitter Lesson》AI的苦涩教训:计算与通用方法的胜利
在人工智能(AI)发展的70年历程中,强化学习(RL)领域的先驱Rich Sutton于2019年发表了《The Bitter Lesson》一文,提出了一个深刻而发人深省的观点:在AI研究中,依赖计算能力的通用方法最终总是最有效的,且优势显著。
2025-04-19 22:05:59
557
原创 《The Second Half》AI的第二半场:从方法突破到问题定义
AI的焦点转向了评测(evaluation)的重新定义。下半场的游戏规则可以总结为:1. 开发针对现实世界效用(utility)的新评测体系或任务。2. 使用配方解决这些任务,或通过新方法增强配方,持续迭代。
2025-04-19 21:56:26
691
原创 日本失去的三十年(1990–2020)综合分析
本文将从多个维度全面分析1990–2020年间日本经济社会的发展变迁,包括人口变化、金融市场、产业结构、就业与社会、宏观经济表现及社会影响等方面,并将日本的情况与美国、德国、韩国等国进行对比,以突出日本的特殊性。分析基于权威数据和资料,辅以图表和表格,以期勾勒出“失去的三十年”的全景。
2025-04-19 19:24:51
1137
李永乐线代强化笔记2020年.rar
2020-10-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人