鲸鱼在dn-CSDN博客

原创干货！三种免费获得GPU算力的方式

kaggle每月30小时免费、colab不定期刷新的免费额度、和鲸社区做任务兑换

2026-03-28 13:43:08 15

原创 CS336作业一笔记:Transformer 全模块 + 公式汇总

cs336作业一，transformer涉及的所有模块，公式总结

2026-03-28 13:38:38 452

原创【CS336】Lecture 02: 模型训练基础与资源核算

1. tensor是深度学习的基础，需熟练掌握其创建、存储、操作和设备迁移；2. 内存核算需关注浮点类型（float32/bf16/fp8）的取舍，计算量核算核心是矩阵乘法的FLOPs；3. Einops简化tensor维度操作，提升代码可读性；4. MFU是衡量硬件利用率的核心指标，优化MFU是提升训练效率的关键。

2026-03-18 10:54:34 364

原创【CS336】Lecture1课程讲义-语言模型发展历程&Tokenization概念

斯坦福从头构建大模型课程cs336第一讲内容，讲解大模型发展历史、课程作业安排、tokenization

2026-03-18 10:36:38 581

原创 Ptrade量化回测策略源码——仅供学习

Ptrade软件自带策略源码备份，仅供参考，如小市值策略、双均线策略

2026-03-04 18:31:10 197

原创量化交易入门：从认知到实操的完整指南——量化好声音播客笔记

本篇内容是一个播客《量化交易入门：从认知到实操的完整指南》的笔记。本文从数据、策略、回测、实盘4个角度总结播客内容

2026-03-04 11:36:00 355

原创王树森《推荐系统》笔记（持续更新中...）

本文为王树森的推荐系统课程笔记，包含推荐系统的基本概念、链路（召回、粗排、精排、重排）

2025-11-23 17:38:00 1242

原创大型语言模型推理能力评估——李宏毅2025大模型课程第9讲内容

本节课主要探讨了“如何科学评估大型语言模型的推理能力”，指出当前模型可能依赖记忆而非真正推理，介绍了 ARC-AGI 和 Chatbot Arena 等评估平台，并提醒人们注意评估指标的局限性和误导性。

2025-11-09 22:25:22 1067

原创大模型知识编辑技术——李宏毅2025《机器学习》第十讲

本讲聚焦模型编辑（Model Editing）技术，精准地修改大语言模型（LLM）中的单一知识点，而不像微调一样影响模型整体能力。本文讲解了评判模型编辑的三个原则（可靠性、泛化性、局部性）和模型编辑的两大方法（1、不改变模型参数的算法，如IKE；2、改变参数，如人类参与的ROME, 人不参与的Hypernetwork）

2025-11-09 22:24:56 686

原创推理模型的下一步：别让模型想太多——李宏毅2025大模型第八讲笔记

上一讲我们提到，推理模型的挑战在于：冗长的推理过程造成模型低效和高的推理成本。本文会按照“问题 → 解法 → 落地” 三个步骤记录，不让模型想太多的方法。

2025-11-02 22:05:54 923

原创打造推理模型的4种方法——李宏毅2025大模型课程第7讲

本节课系统地介绍了如何让大语言模型（LLM）具备“推理”能力，介绍了打造推理模型的4种流派，并介绍了集4种技术流派大成的deepseek R1。最后提出了推理模型的挑战在于：推理过程冗长、效率低和成本高

2025-11-02 21:24:01 1763

原创大语言模型的后训练与“灾难性遗忘”问题——李宏毅2025大模型第六讲笔记

当你看到这样一个新闻：“某实验室/公司喜报：使用某开源基座模型Q，经过后训练得到模型Q'，Q'在数学编程领域的得分超过Q。” 请思考，Q'真的超过了Q吗？学习本节课，你将了解什么是后训练，为什么后训练会导致模型灾难性遗忘，如何避免模型遗忘知识。

2025-10-19 10:32:26 981

原创大模型微调涉及的8个Python库总结

本文总结了8个高频Python库在LLM微调/对齐/加速/推理环节的关键作用。每个库都配有典型用法和官方文档链接，覆盖了从模型压缩、高效训练到部署优化的全流程。

2025-09-21 19:38:16 1095

原创用100条数据微调大模型Llama2-7B源码解析——李宏毅大模型2025作业5

本文介绍了一个使用LoRA微调LLaMA2-7B模型的完整流程。首先进行环境准备与安装，加载预训练模型。然后添加LoRA适配器，将可训练参数从67.78亿降至399.8万（仅0.59%）。模型训练采用SFTTrainer，设置LoRA超参数并进行监督微调。最后进行模型推理评估和权重保存。

2025-09-21 18:06:39 1147

原创大模型微调之用LoRA微调Llama2(附代码)——李宏毅2025大模型作业5笔记-上

本文说明了LoRA的原理，并解释了为何LoRA在大模型后训练中可以显著减少需要训练的参数。同时本文详细解释了LoRA涉及的两个核心参数，并附有代码，详细说明了其中一个参数（LoRA-Rank）不同大小，对后训练模型参数量的影响

2025-09-20 22:36:42 1004

原创通义千问万相2025年1月-9月发布模型梳理

本文可用于模型选型，梳理了通义千问与万相的区别，并整理了2025年1月-9月，Qwen、Wan发布的模型，解读模型名称含义，说明模型特征，使用场景。

2025-09-20 16:21:15 3362

原创 pretrain-Alignment范式的强大与极限——李宏毅大模型2025第五讲笔记

当前大语言模型（LLM）训练的三阶段范式已经成熟：1. 预训练（Pre-training）2. 有监督微调 / 指令微调（SFT, Supervised Fine-tuning）3. 人类反馈强化学习（RLHF）其中，第2、3阶段合称为对齐（Alignment），目标是让模型行为符合人类偏好。

2025-09-14 21:45:03 548

原创 Transformer 架构的演进与未来方向（RNN → Self-Attention → Mamba）——李宏毅大模型2025第四讲笔记

一句话总结——“所有架构都为了解决上一代模型的致命缺陷而生：CNN 解决参数爆炸，ResNet 解决梯度消失，Transformer 解决 RNN 无法并行，而 Mamba 则试图一次解决 Transformer 的 O(N²) 与 RNN 的记忆瓶颈。”

2025-09-06 18:36:38 1321

原创如何训练一个简单的Transformer模型（附源码）李宏毅2025大模型-作业4

使用2层Transformer的GPT-2模型进行宝可梦图像生成实验（有源码）。实验基于792张20×20像素的宝可梦图像数据集，通过自回归预测完成图像生成（前60%预测后40%）。模型配置为2层Transformer、2个注意力头、64维嵌入，参数量136,384。经过50个epoch训练后，验证集重建准确率达31%，FID得分为96.3425。结果显示模型能生成具有基本形状和颜色分布的宝可梦图像，但精细度有待提升。实验完整实现了数据处理、模型训练、图像生成和FID评估流程，为轻量级Transformer

2025-09-06 18:04:14 1320

原创大语言模型的“可解释性”探究——李宏毅大模型2025第三讲笔记

摘要：本文系统探讨了大语言模型的可解释性问题，从神经元、网络层到整体模型三个层面展开分析。研究发现：1）单个神经元具有多任务性，通过激活程度可识别其功能；2）网络层中存在可提取的"功能向量"（如拒绝、诚实等），通过SAE方法可解构3400万种功能向量；3）模型思维具有透明性，LogitLens技术显示答案形成过程，PatchScopes则揭示多步推理机制。研究表明大语言模型通过神经元协同和功能向量组合实现复杂认知，其推理过程具有可追溯性。

2025-08-30 19:44:30 947

原创 6个要点了解transformer（附源码）！李宏毅大模型2025课程作业3

本文探讨了大型语言模型在多个关键方面的表现特性：1. 模板格式对输出质量的影响分析显示，使用适当的对话模板能显著提升回答的相关性。2. 多轮对话测试，证实模型能有效记忆上下文。3. 通过tokenization分析展示了文本如何被拆分为子词单元。4. 不同采样策略对比实验表明，不同采样方式对模型输出的多样性有影响。5. 词嵌入可视化证实语义相近的词在向量空间中距离更近。6. 注意力机制分析揭示

2025-08-30 18:38:31 1244

原创 RAG-大模型课程《李宏毅 2025》作业1笔记

摘要：本视频介绍了检索增强生成（RAG）技术及其应用。RAG通过让大语言模型访问外部知识库来提升回答质量，解决了模型知识陈旧、训练成本高的问题，尤其适用于企业知识管理。视频还解释了Agent系统如何协同工作完成复杂任务：将用户问题分配给特定领域专家（如历史专家），并通过事实核查确保准确性。代码链接已提供，帮助理解RAG与Agent系统的实际应用。

2025-08-09 21:41:54 557

原创一文搞懂AI Agent原理——李宏毅2025第二讲笔记

AIAgent是指能自主完成人类设定目标的智能体，其核心能力包括：1）基于记忆的经验调整，通过读写模块实现记忆管理；2）工具使用能力，可调用搜索引擎、编程接口等多类工具；3）动态计划能力，能根据环境变化调整行动计划。当前AIAgent已从专用系统（如AlphaGo）发展为通用型智能体，支持语音交互等更自然的交互方式，且无需专门训练模型即可运作。未来发展趋势包括更复杂的记忆机制、工具自主选择及动态计划优化能力。

2025-08-09 19:28:34 1112

原创 OPENAI 预测的AGI5个阶段&产品了解

OpenAI近日公布AGI发展的五个阶段规划：从L1聊天机器人到L5组织者，逐步实现从基础对话到组织管理的跨越。其模型发展路线图显示，2024年将推出全模态GPT-4o和专注推理的o1系列，2025年计划发布具备超长上下文的GPT-4.1和支持复杂任务处理的o3等模型。GPT系列侧重语言处理，o系列专注推理能力，两者形成互补。该规划揭示了AI向更复杂决策和自主创新方向发展的趋势。（信息来源：DeepResearch报告及新智元公众号）

2025-08-02 18:41:43 1293

原创大模型的基本原理与运作机制——李宏毅《2025机器学习》第一讲

摘要：本文介绍了大模型的基本原理与运作机制。主要内容包括：（1）大模型的行为特征，如推理能力、工具使用（DeepResearch、浏览器操作）和人类反馈获取；（2）生成式AI的核心原理"文字接龙"机制，通过概率分布预测下一个token；（3）深度学习的分层计算优势；（4）神经网络由架构（人为设定）和参数（训练获得）组成，其中可调的架构参数称为超参数。文章还提到学习大模型需要预训练、后训练和强化学习等前置知识。

2025-08-02 18:35:09 865

原创 AI Agent笔记--读腾讯技术公众号

《AIAgent技术发展全景：从构成要素到范式变革》摘要：本文系统梳理了AIAgent的技术演进，指出其核心由大模型、记忆系统、工具调用和自主规划四大能力构成，并强调真正Agent需具备自主决策特性。当前技术面临幻觉累积、记忆管理、协作失效等挑战，业界正通过固化工作流、优化ReAct框架及多Agent协同等方案应对。技术范式正经历从"模型即服务"到"模型即产品"的转变，2024年将出现专用Agent模型，强化学习成为后训练阶段的核心技术。未来Agent将呈现工程化与端

2025-07-26 11:56:44 612

原创安德鲁·卡帕西：深入探索像ChatGPT这样的大语言模型

本文总结了安德鲁·卡帕西关于大语言模型的核心观点。大模型训练分为三个阶段：预训练（学习语料）、监督微调（学习对话）和强化学习（优化输出）。预训练包括数据处理、token化和神经网络参数调整；监督微调通过对话数据集教会模型应答；强化学习则让模型自主优化答案质量。文章还探讨了模型特性（如幻觉、记忆方式）和发展方向（多模态、任务代理等），并提供了相关资源链接。这种分阶段训练方法使大模型能逐步掌握从知识积累到对话应答的完整能力。

2025-07-26 11:53:18 1714

原创 openManus源码解析

OpenManus是一个多功能AI Agent框架，协调LLM、工具与外部系统交互。其工作流程包括：通过config.toml配置LLM（支持OpenAI、Claude等）、MCP服务和浏览器；用户输入prompt经LLM解析后，动态调用搜索、浏览器交互、Python执行等工具集；系统采用分层代理架构（BaseAgent→ToolCallAgent→领域专用Agent），核心方法think()和act()实现推理与执行分离。框架优势在于高扩展性，支持自定义工具集成和专用A

2025-07-13 13:23:20 1124

原创 DeepSeek 11篇关键论文及要点，DeepSeek为什么能做到成本降低

DeepSeek 2024年1月至2025年1月，技术演进摘要。基座模型（DeepSeek LLM、DeepSeek MoE、DeepSeek-V2、DeepSeek-V3）；推理模型（DeepSeek-Coder、DeepSeek-Coder-V2、DeepSeek-Math-Shepherd、DeepSeek-Math、DeepSeek-Prover、DeepSeek-Prover-V1.5、DeepSeek-R1）

2025-07-13 13:17:05 1103