wan2chen12-CSDN博客

原创极简邪修：量产顶刊学术图SOP

本文提出一套AI辅助学术制图的标准化流程，通过五个步骤解决科研配图难题：1）用大模型拆解论文逻辑并规划图表布局；2）核对代码确保架构准确性；3）批量生成多版本设计底图；4）将优选图片矢量化处理；5）在Canva中替换乱码、注入专业内容。该方法融合AI的创意生成与人工精准把控，既规避传统制图的繁琐，又保证学术严谨性，特别适合Nature/ICLR级别论文的配图需求。关键要诀在于利用AI处理排版基底，而将专业术语、公式等核心内容留待人工精修，实现效率与质量的平衡。

2026-02-27 19:31:44 886

原创工程实践笔记（一）：Git/Debug/测试/Linux

本文总结了四大工程实践核心技能：1）Git版本控制通过add/commit/pull/push实现代码快照管理，分支开发保障并行协作；2）Debug调试采用断点法核查数据流，重点检查维度变化、数值敏感和分支边界；3）单元测试使用pytest框架验证函数边界条件，确保重构安全性；4）Linux部署通过nohup/tail/ps/kill实现后台训练与进程管理。四项技能形成开发闭环：版本可控→快速排错→自动验证→稳定部署，适用于机器学习等工程场景。

2026-01-27 11:38:35 314

原创语言模型会梦到奖励函数吗？——Transformer 如何内化隐式奖励

不只是对齐人类偏好，而是让系统在开放世界中发现自己的价值坐标。

2025-12-28 12:09:52 849

原创 Attention深度笔记：一文串透QKV、变体与复杂度优化

摘要：Attention机制的核心原理与优化方法 Attention机制通过Query-Key-Value三元组实现信息加权，解决RNN/CNN处理长序列时信息衰减的问题。其核心是计算Query与所有Key的相似度（点积），经缩放和Softmax得到权重后对Value加权求和。Self-Attention通过线性变换从输入序列生成QKV矩阵，Multi-Head Attention则通过多头并行计算增强表达能力。针对计算复杂度问题，提出了稀疏注意力、滑动窗口等方法降低复杂度，以及Multi-Query/Gr

2025-12-18 11:09:53 638

原创自用LLM八股卡片笔记系列（第四讲：循环神经网络家族）

本文是一份针对循环神经网络(RNN)家族的面试复习笔记，重点总结了RNN、LSTM、GRU和BiLSTM的核心知识点。主要内容包括：RNN的基本原理及其在处理序列数据时的局限性；LSTM通过门控机制和细胞状态解决梯度消失问题的设计思想；GRU作为LSTM简化版的架构特点；以及面试常见问题的回答思路。笔记采用问答形式组织内容，突出关键概念和公式，旨在帮助读者快速掌握RNN家族的核心逻辑链和面试应答技巧，而非深入推导细节。配套的RemNote卡片提供了结构化记忆训练工具，适合面试前快速复习使用。

2025-12-17 19:00:52 220

原创序列网络深度笔记：RNN → LSTM → GRU 完全攻略（公式推导）

本文系统梳理了RNN到LSTM再到GRU的演进过程，重点解析了三大核心问题：1）RNN梯度消失的数学本质，揭示了连乘导致记忆衰减的机制；2）LSTM通过遗忘门、输入门、输出门的三重门控设计，实现记忆的加法式更新；3）GRU精简为更新门和重置门的两门结构。文章采用记忆口诀（如"RNN=循环+共享+记忆"）和生活化比喻（如"RNN是近视眼"），配合关键公式推导和对比表格，深入浅出地阐明了各模型的核心原理与优化思路。特别强调了LSTM通过"遗忘+输入"的

2025-12-17 17:28:29 710

原创词向量深度笔记：从 OneHot 到 Word2Vec（逻辑链 + 代码）

本文系统梳理了词向量技术从OneHot到Word2Vec的发展历程。首先指出计算机需要将文本转化为向量形式才能处理，引出词向量的重要性。OneHot编码虽然解决了类别无序问题，但存在维度灾难和无法表达语义关系的缺陷。Word2Vec通过分布假设，利用上下文信息训练稠密词向量，提出CBOW和Skip-Gram两种架构：CBOW通过上下文预测中心词，训练速度快但低频词效果弱；Skip-Gram则通过中心词预测上下文，对低频词表现更好。文章详细讲解了CBOW的实现原理，并给出完整的Python代码示例，最后比较了

2025-12-15 20:09:21 1004

原创 Jay Alammar深度笔记：Seq2Seq 模型与注意力机制（逻辑链）

本文系统梳理了Seq2Seq模型与注意力机制的核心原理。从RNN编码器-解码器架构入手，分析了固定长度上下文向量的信息瓶颈问题，引出注意力机制的创新解决方案。重点解析了注意力评分、softmax归一化和加权求和的三步计算过程，通过动态聚焦机制实现源语言与目标语言的自动对齐。文章还提供了工程实践中的关键参数设置建议，并指出注意力机制为后续Transformer架构奠定了基础。全文通过可视化与逻辑链条相结合的方式，深入浅出地阐释了神经机器翻译的核心机制。

2025-12-15 10:32:53 627

原创 Jay Alammar 博客笔记：拆解 Word2vec的思路演进（逻辑链）

本文系统梳理了Word2vec的核心原理与实现逻辑。从词向量表示的基本直觉出发，通过人格测试类比阐释了Embedding的本质。重点剖析了Skip-gram架构如何通过上下文预测任务学习词向量，并深入解析负采样技术如何将计算复杂度从百万级降至常数级，解决了传统Softmax的效率瓶颈。文章还总结了窗口大小、负样本数量等关键超参数的影响，完整呈现了Word2vec从理论到工程实践的全貌。通过清晰的逻辑链条和直观解释，帮助读者深入理解这一经典词嵌入方法的核心思想与技术实现。

2025-12-14 12:16:59 669

原创自用LLM八股卡片笔记系列（第3讲：句法分析与词向量）

聚焦"为什么句法分析被放弃"和"为什么Word2Vec还活着"。

2025-12-11 10:53:20 769

原创自用LLM八股卡片笔记系列（第2讲：中文分词与词性标注）

摘要本文系统梳理中文分词算法工程实践与面试要点，聚焦三大核心问题：算法本质、工程权衡和问题诊断。内容分为九部分：(1)分词难点与评估陷阱；(2)算法对比分析（贪心/DP/HMM）；(3)工程选型决策树；(4)线上问题诊断方法；(5)评估指标设计；(6)词性标注挑战；(7)传统算法持久价值；(8)高频面试题精解；(9)变式场景应对策略。重点揭示：工程需平衡90%准确度与毫秒级延迟的帕累托最优，混合架构（词典+统计）是实用方案，新词识别依赖HMM统计韧性。提供从概念定义到数学证明（Bellman原理）、再到工

2025-12-10 21:50:39 1020

原创 SLP第三章深度笔记：从零推导N-gram语言模型（逻辑链）

本文系统梳理了N-gram语言模型的核心原理与关键技术。从整句概率估计的根本问题出发，通过链式法则分解和马尔可夫假设，推导出N-gram模型的计算框架。重点阐述了最大似然估计、对数空间计算等工程实现方法，并详细分析了困惑度的概念内涵与评估意义。针对数据稀疏问题，深入解析了平滑技术（Laplace平滑、线性插值）的数学原理与实现策略。文章还探讨了模型复杂度与泛化能力的平衡关系，以及熵与交叉熵的理论基础。全文以清晰的逻辑链条展现了N-gram模型从理论构建到实践优化的完整知识体系，为理解现代语言模型奠定了重要基

2025-12-10 20:48:34 676

2504_94557665的博客