Deepmindyu-CSDN博客

原创大模型学习与面试精讲第六期：损失函数篇

在信息论中，

2026-03-30 15:08:07 91

原创论文精读：拆解顶会论文 COLA：当大模型玩起角色扮演与对抗博弈，Agent 工作流的威力有多大？

本篇文章将用最通俗易懂的大白话，带你硬核拆解这篇让人拍案叫绝的论文。我们将看到，作者如何仅仅通过精妙的 Prompt（提示词）工程，就搭建出了一个由“领域专家”、“正反方辩手”和“最高法官”组成的 AI 专家辩论团（COLA 框架），并且在“零样本”考试中吊打了那些靠死记硬背训练出来的传统模型。

2026-03-30 13:30:03 120

原创开年王炸？马斯克都盛赞的 Kimi 架构级创新《Attention Residuals》深度解读

究竟是一篇什么样的中国 AI 论文，能让马斯克等一众硅谷大佬在深夜的 X（推特）上疯狂讨论？答案就是 Kimi 最新发布的架构级神作《Attention Residuals》。今天，我们将用最通俗的比喻带你拆解这篇“动了深度学习十年祖坟”的硬核研究，看看他们是如何破解大模型越深越笨的魔咒的。更让人震撼的是，这篇引发硅谷巨头热议、动了深度学习十年祖坟的底层架构论文，其第一作者竟然是一位 17 岁的深圳高中生！这篇论文之所以能引发如此轰动，是因为它动了深度学习过去十年来最神圣不可侵犯的基石——残差连接

2026-03-24 16:36:49 644

原创深入讲解Transformer架构(详细图解)——大模型学习精讲第五期：Transformer

在前面的第4期，我们已经深入探讨了 Transformer 的自注意力机制（Self-Attention）。但一个独立的机制无法构成完整的生命体。在这一章，我们将视野拉高，看看 Transformer 是如何将注意力机制、前馈神经网络等组件拼接在一起，形成一个能够完成翻译、问答和文本生成的端到端系统的。

2026-03-23 15:24:46 422

原创大规模并发处理器程序设计(PMPP)讲解(CUDA架构):第四期：计算架构与调度

在前面的章节中，我们已经掌握了如何使用 CUDA 编程模型来表达并行性。我们习惯了将一个庞大的计算任务划分为一个线程网格 (Grid)，并将网格进一步细分为多个线程块 (Block)，每个块中包含数百个并发执行的线程 (Thread)。这种以数据为中心的软件抽象非常优雅，它让程序员可以摆脱底层硬件的繁文缛节，专注于算法的逻辑。然而，软件模型只是一个“美好的蓝图”。当我们调用内核函数（Kernel Launch）时，这些成千上万、甚至数以百万计的虚拟线程，必须被映射到真实存在的、物理资源有限的硅片上。理解

2026-03-20 14:25:20 458

原创大规模并发处理器程序设计(PMPP)讲解(CUDA架构)：第三期：多维网格与数据

在前面的章节中，我们已经揭开了 GPU 大规模并行计算的神秘面纱，并成功编写了基础的 CUDA 程序。利用一维的线程网格（Grid）和线程块（Block），我们学会了如何高效地处理线性的数据数组，例如向量加法。然而，当我们把目光从简单的数组投向广阔的现实世界时，会发现一个不可回避的事实：真实世界的计算问题绝大多数都是多维的。

2026-03-19 14:40:22 353

原创大规模并发处理器程序设计(PMPP)讲解(CUDA架构)：第二期：异构数据并行计算

欢迎来到并行计算的真实世界。如果说传统的串行程序是一辆追求极致单步响应速度的跑车，那么我们即将学习的异构数据并行程序，就是一支能够同时处理海量任务的超级舰队。本章是引导你从“串行思维”跨越到“并行思维”的破冰之旅。在这里，我们将彻底打破传统围绕 for 循环构建的编程习惯，带你从底层硬件架构出发，去理解 GPU 天生为“吞吐量”而生的设计哲学。

2026-03-17 17:20:29 399

原创超长文预警！大模型面试与深入第四期：关于Attention的一切一次性全部讲清

先大概回顾一下注意力机制的原理，然后深入讲解注意力机制的各方面内容，注意力机制的使命就是将Token的维度重新映射，获得更准确更丰富的语义。最后我们再提问，相信大家看完前面的讲解，对后面的问题会游刃有余。

2026-03-17 11:49:41 628

原创大规模并发处理器程序设计(PMPP)讲解(CUDA架构)：第一期：基础知识引入

作为 NVIDIA 推出的并行计算平台和编程模型，CUDA 是目前连接上层软件逻辑与底层 GPU 狂暴算力之间最成熟、最强大的桥梁。它不是一门全新的语言，而是对 C/C++ 的优雅扩展。掌握了 CUDA，你就能绕开繁琐的图形学 API，直接向 GPU 的物理核心下达指令。

2026-03-16 15:29:11 364

原创深入理解计算机系统：CPU 里面根本没有减法器？揭秘计算机的 0 和 1 是如何计算的

在高级编程语言的世界里，我们习惯了直接写下 a + b 或者 c - d。但你是否好奇过，当剥开语言的外衣，进入到只有 0 和 1 的底层世界时，计算机究竟是如何“认识”数字并进行运算的？

2026-03-16 12:46:25 406

原创大模型面试第三期：激活函数篇

比如一个神经元正在接收来自其他神经元的信号。有些信号说“是”（正值），有些信号说“否”（负值）。神经元把这些信号加在一起得到一个总分（假设为激活函数的作用就是。

2026-03-13 15:02:01 365

原创《深入理解计算机系统》（CSAPP）2.2：整数数据类型与底层机器级表示

在计算机的微观世界里，所有的数字最终都只是一串冷冰冰的、没有感情的 0 和 1。内存里的二进制位本身毫无意义，真正赋予它们灵魂的，是我们定义的“数据类型”。为什么在 C 语言中，把一个大整数强行塞进小空间后，正数会突然变成负数？为什么看似简单的强制类型转换，常常是底层安全漏洞的罪魁祸首？

2026-03-13 13:57:56 373

原创大模型面试第二期：层归一化篇

对比分析 Layer Norm、RMSNorm、DeepNorm 的数学原理与核心差异，并探讨 Post-Norm、Pre-Norm 与 Sandwich-Norm 对深层网络训练稳定性的影响。

2026-03-12 16:45:04 605

原创深入理解计算机系统2.1信息的存储：扒掉数据的外衣

之前更新过一篇2.1的博客，最近来看好像不太完整，所以打算更加详细基础完整的讲解一遍。为什么 32 位系统最多只能认 4GB 内存？一段 C 语言代码拿到另一台电脑上为什么会变成一堆乱码？不用第三个变量怎么优雅地交换两个数字？本文将带你从最基础的十六进制和字长概念切入，深入剖析大小端字节序的内存布局，并最终攻克初学者最头疼的位运算（Bitwise Operations）与掩码实战。带你换上 CPU 的视角，重新审视内存中那些看似枯燥的 0 和 1。

2026-03-12 15:52:48 565

原创大模型面试题目详解：第一期

这里通过一些主流的面试题目与网上搜索到的题目进行一个汇总与讲解，无论是学习还是面试都是有益的。我还是坚持以往的讲解方式吧，我们不仅要知道是什么，还要知道为什么，更要知道最底层原因

2026-03-11 13:35:05 492

原创详谈大模型“信用分配”难题：大模型长文本推理 (PPO/DPO/KTO) 的痛点与破局分析

当前的基座模型其实已经足够聪明。它们在预训练阶段就吞噬了人类几乎所有的知识。强化学习（RLHF）及其变体，本质上并不是在教大模型‘学习新知识’，而是像一个极其高明的采访者，把模型脑子里本来就有的东西，以人类最喜欢的格式、最严密的逻辑‘引诱’出来。因此，在很多场景下，我们并不总是需要盲目追求更大参数的模型。参数少不等于性能弱！一个参数量适中、但经过极高标准优化（如 KTO、PRM 或极致的规则驱动 RL）的模型，完全可以越级击败那些空有庞大参数却缺乏对齐的巨兽。

2026-03-11 12:47:03 524

原创祖师爷KR的C语言大结局：UNIX与LINUX系统接口

K&R《C程序设计语言》第八章（UNIX系统接口）基于早期的 UNIX 版本（如 Version 7 UNIX）。虽然底层思想依然适用，但现代实际工程中，Linux 才是绝对的主力。K&R 最后一章讲 UNIX，不是因为今天你必须先去装一个古老 UNIX 系统，而是因为：C 语言本来就是在 UNIX 环境里成长起来的。所以那一章很多内容，其实是在讲：C 在操作系统环境中的实际用法文件、进程、输入输出这些底层概念UNIX 风格工具和编程接口

2026-03-10 12:50:18 385

原创祖师爷KR的C语言讲解：第6期-输入与输出

C 语言的输入输出看起来很简单，不过是打印几个字符、读取几个数字，但它其实暗藏玄机。从神秘的“缓冲区滞留”，到引发程序崩溃（段错误）的 scanf 陷阱，再到一不小心就清空硬盘数据的文件读写，I/O 章节绝对是无数 C 语言初学者踩坑的重灾区。这篇博客将带你系统性地扒开 C 语言 I/O 的底层逻辑。抛弃晦涩难懂的比喻，用最直观的代码实例，把庞杂的 I/O 知识拆解为 10 个循序渐进的核心部分。无论你是刚接触 printf 的新手，亦或是在文件操作边缘试探的进阶学习者，都能在这里找到答案。

2026-03-10 11:51:33 435

原创祖师爷KR的C语言讲解：第五期-结构

C语言的“结构体”（Struct）是非常核心且重要的内容，它是面向对象编程中“类”的前身，也是在C语言中构建复杂数据模型的基础。

2026-03-07 17:46:52 441

原创祖师爷KR的C语言详解：第4期-指针与数组

K&R的《C程序设计语言》（The C Programming Language）是学习C语言的经典之作，而第五章“指针与数组”更是整本书的灵魂。指针是C语言中最强大但也最容易让人迷惑的特性之一。深入理解它，你不仅能写出更高效的代码，还能真正理解计算机内存的工作原理。由于个人感觉本章的结构顺序有不合理之处，稍作一些小小的顺序变动，请大家放心观看。这一章对于初学者来说确实比较复杂抽象，但我会尽力写的清晰易懂，但是只要多看几遍，多思考，一定可以看懂。世上无难事，只怕有心人。

2026-03-06 14:39:18 409

原创祖师爷KR的C语言第3期：函数与数据结构

《The C Programming Language》（简称 K&R）的第 4 章是 C 语言进阶的转折点。如果说前三章是在教你如何写“句子”，那么第四章就是在教你如何写“文章”。

2026-03-04 16:26:28 452

原创祖师爷K&R的C语言第二期：控制流

《The C Programming Language》（简称 K&R）的第三章是关于控制流的。简单来说，控制流就是程序执行指令的顺序。如果没有控制流，程序只会从头到尾死板地执行；有了它，程序就能根据条件“转弯”或者“跳回”去重复执行某段代码。

2026-02-28 14:42:05 996 1

原创祖师爷的C语言第一期：类型，运算符和表达式

K&R的《C程序设计语言》被公认为C语言的“圣经”和“祖师爷”。这本书由C语言之父丹尼斯·里奇（Dennis Ritchie）和布莱恩·克尼汉（Brian Kernighan）合著，是C语言最权威、最经典的原始著作。这是理解C语言精髓、品味经典代码风格、追溯语言本源的必经之路。你会从中获得对C语言深刻而直观的理解，这是其他任何教材无法给予的。此博客对应KR书的第二章。K&R（Kernighan & Ritchie）著作的《C程序设计语言》第二章名为类型、运算符与表达式。这一章是C语言

2026-02-25 21:26:55 695

原创线性代数思维重构第一章：向量空间

线性代数是研究有限维向量空间上的线性映射的学问．我们最终会理解这些术语的具体含义．在本章中，我们将定义向量空间并讨论它们的基本性质．在线性代数中，如果将复数与实数放在一起研究，就会得到更好的定理和更深刻的见解．因此，我们将从介绍复数及其基本性质开始．

2026-01-30 02:10:42 895

原创直接偏好优化DPO这一篇就够了：万字长文超硬核解析

市面上讲 DPO 的文章很多，但能把数学推导、代码实现、显存优化讲透的很少。这是一篇试图穷尽 DPO 技术细节的“百科全书”。我们不仅推导了那个著名的 Log-Sigmoid 损失函数，更深挖了那些论文里没写的工程细节：为什么你的 Loss 降了但模型变笨了？如何用 SimPO 节省 50% 显存？长文本和推理任务的“对齐税”怎么破？在深入 DPO 的数学细节之前，我们必须先在逻辑层面厘清它解决的核心问题。DPO 并非凭空出现，它是对传统 RLHF（Reinforcement Learning fro

2026-01-29 21:25:28 910

原创具身智能2.1刚体运动学：坐标系变换、旋转矩阵、四元数

四元数是复数（Complex Numbers）在四维空间的扩展。一个四元数由一个实部（Scalar,）和三个虚部（Vector,）组成：或者写成向量形式：在具身智能的工程实践中，为了描述旋转，我们只使用单位四元数 (Unit Quaternion)

2026-01-28 19:27:08 702

原创论文精读第九期:ReST-MCTS 深度剖析：从蒙特卡洛树搜索到过程奖励，解锁 LLM 的 System 2 推理能力

本文将深入拆解经典论文 ReST-MCTS，探讨如何将蒙特卡洛树搜索 (MCTS) 与过程奖励模型 (PRM) 引入 LLM 训练闭环。我们将从算法原理、架构设计、数学推导到实战效果，全方位解析模型如何通过“搜索-筛选-自训练”的迭代，在 MATH 等高难度数据集上实现能力的螺旋式上升。如果你对下一代具备“慢思考”能力的推理模型感兴趣，这篇文章不容错过。

2026-01-28 16:15:34 724

原创具身智能1.4 ：延迟与噪声-物理世界的真实挑战（不同于 Token 的离散完美性）。

1.在 20 分钟的通信闭环里，你发出的指令是基于“过去”的状态（10分钟前），执行的动作将发生在“未来”（10分钟后）。因为仿真器里的物理引擎（Physics Engine）是基于简化公式的，它无法完美模拟现实世界中复杂的空气动力学、软体形变、温度对电路的影响，以及延迟和随机噪声。我们在仿真器（Simulation）里训练机器人时，就像在一个没有延迟、没有噪声的完美真空中。你看到敌人，开枪，但什么也没打中，因为你看到的“敌人”其实是 0.5 秒前的残影。如果说延迟是“迟钝”，那噪声就是“幻觉”。

2026-01-27 18:18:10 720

原创揭秘 AlphaGo 的大脑：一文读懂蒙特卡洛树搜索 (MCTS)：10 步通关教程

网上关于 MCTS（蒙特卡洛树搜索）的原理讲解很多，但能从直觉到公式，再到代码落地讲透的却很少。本文将分 10 个章节，像剥洋葱一样拆解 MCTS。我们要抛弃复杂的深度学习框架，仅用纯 Python，从最基础的“多臂老虎机”原理讲起，推导 UCB 公式，直到手写出一个完整的、能玩井字棋的 AI。无论你是 DRL 初学者还是想探究 AlphaGo 原理的开发者，这篇文章都能带你彻底通关。

2026-01-26 17:24:38 805

原创论文精读第八期：Quiet-STaR 深度剖析：如何利用并行 Attention 与 REINFORCE 唤醒大模型的“潜意识”？

以前的 CoT（思维链）像是在教模型“应试”，必须有题目、有提示才肯推理。而 Quiet-STaR 的出现，标志着大模型开始学会了“像学者一样阅读”——在海量的互联网文本中，通过预测未来的文字，自发地学会了“三思而后行”。这篇博客将剥开复杂的数学外衣，通俗解读 DeepMind/Stanford 这一开创性工作：当 AI 拥有了看不见的“内心独白”，通往 AGI 的路是否缩短了一程？

2026-01-25 17:15:37 755

原创深入理解计算机系统2.1：信息存储：十六进制、字长与字节序

十六进制：程序员看二进制的眼镜，记住。字长：决定了虚拟地址空间的大小（32位 4GB vs 64位海量），影响指针和long的大小。字节序：x86 机器通常是小端（低位在低地址，看着是反的），网络传输通常用大端。在跨平台传输二进制数据时，这是最容易出 Bug 的地方。

2026-01-22 15:42:26 620

原创论文精读第七期：告别昂贵的人工标注！Math-Shepherd：如何用“零成本”自动化过程监督，让大模型数学能力暴涨？

大模型做数学题总是“一步错，步步错”？大家都知道“过程奖励模型（PRM）”效果好，但动辄几十万条的人工标注数据实在太贵了。今天这篇博客将带你深度拆解北大与 DeepSeek 联合推出的 Math-Shepherd。它不仅提出了一种无需人类介入、基于蒙特卡洛思想的自动化数据构造方法，更在 GSM8K 和 MATH 榜单上全面碾压了传统方法。这不仅是数学推理的胜利，更是数据工程的一次教科书级示范。无论你是想复现 SOTA 效果，还是想寻找低成本提升模型逻辑能力的方案，这篇文章都不容错过。

2026-01-22 14:45:18 627

原创深入理解计算机系统1.5：抽象的重要性：操作系统与虚拟机

计算机科学中有一句名言：“计算机科学中的任何问题，都可以通过增加一个中间层（Indirection）来解决。操作系统就是硬件和应用程序之间那个巨大的“中间层”。它的核心任务是通过三个关键的抽象来“欺骗”应用程序，让它们活在一个简单、完美的世界里。

2026-01-21 18:30:40 638

原创深入理解计算机系统1.4：CPU、GPU、NPU 与异构计算的崛起

在进入具体硬件之前，必须理解为什么我们需要这么多不同种类的处理器。通用计算的瓶颈： CPU 为了通用性（运行操作系统、浏览器、文字处理等），牺牲了大量的晶体管用于控制逻辑（Control Logic）和缓存（Cache），真正的计算单元（ALU）在芯片面积中占比其实很小。数据并行的需求：现代负载（如深度学习、图形渲染）不再是复杂的逻辑判断，而是对海量数据进行相同的简单运算（矩阵乘法）。结论：我们不再需要一个“全能天才”（CPU），我们需要一个“天才指挥官”带着成千上万个“熟练工”（GPU/NPU）。我们

2026-01-21 18:02:07 608

空空如也

空空如也