- 博客(15)
- 收藏
- 关注
原创 极简邪修:量产顶刊学术图SOP
本文提出一套AI辅助学术制图的标准化流程,通过五个步骤解决科研配图难题:1)用大模型拆解论文逻辑并规划图表布局;2)核对代码确保架构准确性;3)批量生成多版本设计底图;4)将优选图片矢量化处理;5)在Canva中替换乱码、注入专业内容。该方法融合AI的创意生成与人工精准把控,既规避传统制图的繁琐,又保证学术严谨性,特别适合Nature/ICLR级别论文的配图需求。关键要诀在于利用AI处理排版基底,而将专业术语、公式等核心内容留待人工精修,实现效率与质量的平衡。
2026-02-27 19:31:44
886
原创 工程实践笔记(一):Git/Debug/测试/Linux
本文总结了四大工程实践核心技能:1)Git版本控制通过add/commit/pull/push实现代码快照管理,分支开发保障并行协作;2)Debug调试采用断点法核查数据流,重点检查维度变化、数值敏感和分支边界;3)单元测试使用pytest框架验证函数边界条件,确保重构安全性;4)Linux部署通过nohup/tail/ps/kill实现后台训练与进程管理。四项技能形成开发闭环:版本可控→快速排错→自动验证→稳定部署,适用于机器学习等工程场景。
2026-01-27 11:38:35
314
原创 Attention深度笔记:一文串透QKV、变体与复杂度优化
摘要:Attention机制的核心原理与优化方法 Attention机制通过Query-Key-Value三元组实现信息加权,解决RNN/CNN处理长序列时信息衰减的问题。其核心是计算Query与所有Key的相似度(点积),经缩放和Softmax得到权重后对Value加权求和。Self-Attention通过线性变换从输入序列生成QKV矩阵,Multi-Head Attention则通过多头并行计算增强表达能力。针对计算复杂度问题,提出了稀疏注意力、滑动窗口等方法降低复杂度,以及Multi-Query/Gr
2025-12-18 11:09:53
638
原创 自用LLM八股卡片笔记系列(第四讲:循环神经网络家族)
本文是一份针对循环神经网络(RNN)家族的面试复习笔记,重点总结了RNN、LSTM、GRU和BiLSTM的核心知识点。主要内容包括:RNN的基本原理及其在处理序列数据时的局限性;LSTM通过门控机制和细胞状态解决梯度消失问题的设计思想;GRU作为LSTM简化版的架构特点;以及面试常见问题的回答思路。笔记采用问答形式组织内容,突出关键概念和公式,旨在帮助读者快速掌握RNN家族的核心逻辑链和面试应答技巧,而非深入推导细节。配套的RemNote卡片提供了结构化记忆训练工具,适合面试前快速复习使用。
2025-12-17 19:00:52
220
原创 序列网络深度笔记:RNN → LSTM → GRU 完全攻略(公式推导)
本文系统梳理了RNN到LSTM再到GRU的演进过程,重点解析了三大核心问题:1)RNN梯度消失的数学本质,揭示了连乘导致记忆衰减的机制;2)LSTM通过遗忘门、输入门、输出门的三重门控设计,实现记忆的加法式更新;3)GRU精简为更新门和重置门的两门结构。文章采用记忆口诀(如"RNN=循环+共享+记忆")和生活化比喻(如"RNN是近视眼"),配合关键公式推导和对比表格,深入浅出地阐明了各模型的核心原理与优化思路。特别强调了LSTM通过"遗忘+输入"的
2025-12-17 17:28:29
710
原创 词向量深度笔记:从 OneHot 到 Word2Vec(逻辑链 + 代码)
本文系统梳理了词向量技术从OneHot到Word2Vec的发展历程。首先指出计算机需要将文本转化为向量形式才能处理,引出词向量的重要性。OneHot编码虽然解决了类别无序问题,但存在维度灾难和无法表达语义关系的缺陷。Word2Vec通过分布假设,利用上下文信息训练稠密词向量,提出CBOW和Skip-Gram两种架构:CBOW通过上下文预测中心词,训练速度快但低频词效果弱;Skip-Gram则通过中心词预测上下文,对低频词表现更好。文章详细讲解了CBOW的实现原理,并给出完整的Python代码示例,最后比较了
2025-12-15 20:09:21
1004
原创 Jay Alammar深度笔记:Seq2Seq 模型与注意力机制(逻辑链)
本文系统梳理了Seq2Seq模型与注意力机制的核心原理。从RNN编码器-解码器架构入手,分析了固定长度上下文向量的信息瓶颈问题,引出注意力机制的创新解决方案。重点解析了注意力评分、softmax归一化和加权求和的三步计算过程,通过动态聚焦机制实现源语言与目标语言的自动对齐。文章还提供了工程实践中的关键参数设置建议,并指出注意力机制为后续Transformer架构奠定了基础。全文通过可视化与逻辑链条相结合的方式,深入浅出地阐释了神经机器翻译的核心机制。
2025-12-15 10:32:53
627
原创 Jay Alammar 博客笔记:拆解 Word2vec的思路演进(逻辑链)
本文系统梳理了Word2vec的核心原理与实现逻辑。从词向量表示的基本直觉出发,通过人格测试类比阐释了Embedding的本质。重点剖析了Skip-gram架构如何通过上下文预测任务学习词向量,并深入解析负采样技术如何将计算复杂度从百万级降至常数级,解决了传统Softmax的效率瓶颈。文章还总结了窗口大小、负样本数量等关键超参数的影响,完整呈现了Word2vec从理论到工程实践的全貌。通过清晰的逻辑链条和直观解释,帮助读者深入理解这一经典词嵌入方法的核心思想与技术实现。
2025-12-14 12:16:59
669
原创 自用LLM八股卡片笔记系列(第2讲:中文分词与词性标注)
摘要 本文系统梳理中文分词算法工程实践与面试要点,聚焦三大核心问题:算法本质、工程权衡和问题诊断。内容分为九部分:(1)分词难点与评估陷阱;(2)算法对比分析(贪心/DP/HMM);(3)工程选型决策树;(4)线上问题诊断方法;(5)评估指标设计;(6)词性标注挑战;(7)传统算法持久价值;(8)高频面试题精解;(9)变式场景应对策略。重点揭示:工程需平衡90%准确度与毫秒级延迟的帕累托最优,混合架构(词典+统计)是实用方案,新词识别依赖HMM统计韧性。提供从概念定义到数学证明(Bellman原理)、再到工
2025-12-10 21:50:39
1020
原创 SLP第三章深度笔记:从零推导N-gram语言模型(逻辑链)
本文系统梳理了N-gram语言模型的核心原理与关键技术。从整句概率估计的根本问题出发,通过链式法则分解和马尔可夫假设,推导出N-gram模型的计算框架。重点阐述了最大似然估计、对数空间计算等工程实现方法,并详细分析了困惑度的概念内涵与评估意义。针对数据稀疏问题,深入解析了平滑技术(Laplace平滑、线性插值)的数学原理与实现策略。文章还探讨了模型复杂度与泛化能力的平衡关系,以及熵与交叉熵的理论基础。全文以清晰的逻辑链条展现了N-gram模型从理论构建到实践优化的完整知识体系,为理解现代语言模型奠定了重要基
2025-12-10 20:48:34
676
原创 自用LLM八股卡片笔记系列(第1讲:语言模型)
本文摘要:该内容将语言模型知识重构为问题驱动的RemNote闪卡,用于算法面试备战。核心内容包括:1)语言模型作为序列概率分布的定义与性质;2)自回归模型的链式法则分解;3)温度采样控制生成多样性;4)条件生成与提示工程;5)信息论指标(熵、交叉熵、困惑度);6)语言模型从N-gram到Transformer的演进历程。采用多角度问答设计,涵盖概念定义、数学形式、工程实现和对比分析,帮助建立结构化知识体系,提升面试应答能力。
2025-12-08 20:14:32
600
原创 一键双链:Prompt拆解复杂理论为RemNote卡片笔记
读的时候:粗标结构与重点不强求第一次就记住所有细节,只要在纸质书或 PDF 上标出:章节标题、关键段落、重要概念/命题。顺手用自己的语言,写几条「这段话到底在说什么」的一句话摘要。读完一小节后:整理成“输入材料”选一个小范围(比如一章/一节),用自然语言写出:本节核心问题是什么?提出了哪些关键概念?给出了哪些重要命题/论证?有没有典型案例或历史情景?这些就作为 Prompt 的「原始材料」喂给大模型。让大模型 + Prompt 生成 RemNote 草稿卡片。
2025-12-07 16:03:35
777
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1