自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(257)
  • 收藏
  • 关注

原创 LLM-leetcode TASK05

Hard |MoEMixtral核心 Infra 与算子开发在上一节中,我们实现了 Top-K 路由。。即门控网络“偷懒”,把所有的 Token 都发给了第 0 号和第 1 号专家,导致其他专家被饿死(闲置),不仅失去了 MoE 的意义,还会导致算力非常不均衡(OOM)。

2026-06-28 02:00:58 303

原创 LLM-leetcode TASK04

Swishzz⋅σβzSwishzz⋅σβzLLaMA 中固定β1\beta=1β1Swishzz⋅σzSwishzz⋅σzσz11e−zσz1e−z1​当β1\beta=1β1时,该函数等价于 SiLU(Sigmoid Linear Unit),PyTorch 中实现为。Swishzzσz⟺SiLUzSwishzzσz⟺SiLUz,PyTorch 对应F.silu;

2026-06-25 02:33:34 302

原创 LLM-leetcode TASK03

在自回归生成中,每次生成第。

2026-06-21 15:04:59 389

原创 LLM-leetcode TASK02

传统 MLP 是。

2026-06-20 02:06:12 401

原创 【llm-leetcode】 TASK01

Q @ K.TQ @ K.T自动求导(Automatic Differentiation, Autograd)是深度学习框架的核心功能,它能够自动计算函数的梯度,无需手动推导和编写梯度计算代码。只跑一次前向(一张计算图),但是要从输出端执行≥2 次梯度回传就必须连续多次 backward + retain_graph=True。普通单 Loss 深度学习训练完全碰不到这个需求。info]- 训练循环中的梯度管理# 前向传播# 清零梯度(重要!# 反向传播# 更新参数。

2026-06-16 20:48:56 231

原创 AMD | task02

跑完整个 Notebook,相当于你已经独立完成了一次完整的模型微调。具体来说,你手上会多出这样几样成果:关机前的“安全撤退”两步走正式关闭环境 确认代码文件下载到你本地电脑后,回到网页的 Profile(个人主页) ,找到 Active Instance 区域,点击红色的 Destroy Instance 按钮。微调(Fine-tuning)微调的真实威力,看下例子就懂:耶鲁大学用微调后的 Gemma 4 探索癌症治疗的新方向;保加利亚的团队把它微调成了"保加利亚语优先"的大模型 BgGPT。同一个

2026-06-15 17:44:02 299

原创 运行 Gemma4 大模型TASK01

它和 Google 那款闭源、收费的 Gemini 3 用的是同一套底层技术,所以你可以把它看成 Gemini 3 的"开源师弟"——区别在于,Gemma 把模型权重公开放了出来,而且用的是商业友好的 Apache 2.0 许可 ,意味着 不光能免费下载,还能免费商用。别看个头小,Gemma 4 这一代主打的就是" 单位参数下的高智能 "——按 Google 官方说法,它家最大的 31B 模型在权威的开放模型排行榜上能排进全球前三,甚至打赢比它大 20 倍的对手。:参数的另一种叫法,完全等价。

2026-06-11 21:30:14 189

原创 【thorough-pytorch】评价指标

混淆矩阵(也称误差矩阵)是机器学习和深度学习中表示精度评价的一种标准格式,常用n行n列的矩阵形式来表示。其列代表的是预测的类别,行代表的是实际的类标,以一个常见的二分类的混淆矩阵为例。我们会发现二分类的混淆矩阵包括TP, FP, FN, TN,其中TP为True Positive,True代表实际和预测相同,Positive代表预测为正样本。同理可得,False Positive (FP)代表的是实际类别和预测类标不同,并且预测类别为正样本,实际类别为负样本;

2026-05-20 20:36:41 476

原创 start-MLLM TASK01

多态大模型(MLLM,Multimodal Large Language Model)尝试进一步处理图片、文档、截图、表格、视频帧、语音等多种输入形式。(第七章 OpenAI 兼容接口、第八章 Gradio Demo、第九章 Agent),完全不需要 PyTorch,可以跳过本节。能画出 感知 → 规划 → 工具 → 记忆 的多模态 Agent 草图,并整理出一份自己的实践优先级清单(第 9~10 章)。:场景剧情、配置与部署、推理脚本与Gradio Demo、多模态代理、以及将全书收成的重建路线。

2026-05-20 00:47:01 382

原创 AI prompting for Everyone | Task01

这就是为什么有时 AI 引用某个网页作为依据,但你实际去看那个网页,会发现内容并不支持 AI 的结论。

2026-05-10 02:00:56 405

原创 Reasoning kingdom chapter13

'停机'ifelse'不停机''停机了'ifelse'没有停机(超时)'

2026-04-28 10:08:59 62

原创 Reasoning kingdom chapter12

一个模糊的、连续的、充满不确定性的世界。在这里,if-else 开始崩塌,精确规则遇到挑战,而新的思维方式正在黎明中诞生。**从确定性规则到概率性思维,从离散逻辑到连续表示。**今天,我们要一起探索这个转变的起点。为什么简单的规则在处理复杂世界时会失效?左边的圆圈,是的世界,”兔狲教授说,“比如‘如果输入数字大于10,就输出Yes’。右边的圆圈,是的世界,比如‘识别一张图片是否是猫’。规则试图用有限的条件描述无限的变化。就像用有限的词语描述所有的梦——总有一些细节会丢失。

2026-04-28 09:42:58 410

原创 TASK09 | Reasoning Kingdom | Transformer : 动态拓扑的注意力革命

每一个 Attention Head 都在问:此刻,哪些部分对哪些部分重要?

2026-04-20 12:57:57 357

原创 TASK06 | Reasoning Kindom 因果的边界——观测数据永远不够

这五个问题,本质上都在追问同一个底层矛盾:仅凭观测数据,我们到底能学到多少因果知识?它的边界在哪里?忠实性假设、等价类问题:是在问“观测数据本身的信息局限性”。SCM参数学习、LLM因果推理:是在问“我们的模型/算法,能不能突破这种局限性”。跨分布泛化失败:是在问“这种局限性会在实践中如何体现”。

2026-04-19 01:01:40 354

原创 TASK05 | Reasoning Kindom拟合的陷阱 —— 统计相关性不是推理

论文的核心论点是:大型语言模型,无论训练在多少文本上,本质上都是在做统计模式匹配——它们学会了哪些词序列在训练语料里经常一起出现,然后在生成时复现这些模式。就像一只鹦鹉,听到了足够多的对话之后,能够在合适的时机说出”你好”或”再见”,但它不理解这些词的意义2023年,Hodel和West做了一个简单的测试。他们拿GPT-3做字母串类比推理——这是Webb等人在2023年声称GPT-3已经”涌现”出类比推理能力的任务。这是一个简单的”最后一个字母后移一位”的规律。GPT-3在这个任务上表现很好。

2026-04-18 14:17:00 423

原创 TASK03 | Reasoning Kindom 从符号到向量——表示空间的第一次解放

从应用伦理角度,词向量中的社会偏见(如 vec(Doctor) 更接近 vec(Man),vec(Nurse) 更接近 vec(Woman))会放大现实中的性别歧视、种族歧视,导致 AI 系统做出不公平决策(如简历筛选模型优先推荐男性候选人)。

2026-04-18 09:12:02 358

原创 TASK04 | Reasoning Kindom流形假设——高维数据的隐秩序

采样是从总体(population) 中抽取一部分样本(sample) 的过程,目的是用少量样本的特性去估计总体的特性。这个概念不仅适用于机器学习,也贯穿于统计学、数据科学的所有领域。为什么机器学习必须采样?比如要训练一个 “识别猫” 的模型,总体是世界上所有的猫图片—— 数量无穷,不可能全部收集;再比如训练一个预测股价的模型,总体是所有时间维度下的股价数据—— 未来的数据还没发生,无法获取。因此,我们只能采样:收集一部分猫的图片、一部分历史股价数据,用这些样本训练模型,再期望模型能泛化到总体上。

2026-04-15 13:07:24 443

原创 TASK02 | Reasoning Kindom 符号的黎明——因果的第一次建模

你的大脑在做的事情,是把这个新场景映射进一个内部的、高度压缩的世界模型——一个你花了几十年建立的、通过无数次经验不断更新的模型。的开发工具,有专门的工程师职位叫”知识工程师”,有大学开了专门的课程。这里有一个更深的哲学问题,1971 年,哲学家 Hubert Dreyfus 在他的《计算机不能做什么》里就提出过:人类的智能,在很大程度上依赖于我们对”什么是重要的”的直觉——而这种直觉是。他们花大量时间和专家访谈,得到一些规则,放进系统,测试,发现覆盖不到的边界情况,回去再问,再改,再测。

2026-04-11 21:49:48 378

原创 TASK01 | Reasoning Kindom

但在细胞内部,维持着惊人的有序性:精确折叠的蛋白质,精确调控的离子梯度,精确转录的遗传信息。你走进一个黑暗的房间,你的大脑不是在空白状态下等待光子——它已经在预测这个房间里可能有什么,预测椅子在哪里,预测墙壁的质感。当条件改变——当它遇到训练分布之外的情况——它的预测就会崩塌,而且崩塌的方式往往是不可预期的、奇怪的。你的大脑大约消耗 20 瓦,大约是一个昏暗灯泡的功率,但它在做的计算,是任何现有的 AI 系统都无法以同等能耗复现的。但维持静态秩序是不够的——外界是动态的,变化的,有时是敌对的。

2026-04-11 19:52:30 426

原创 claude code命令

branch这个命令以前叫/fork,现在改名成/branch了,打/fork还是能用,会自动跳到/branch。生成一份HTML报告,分析你过去一个月使用Claude Code的习惯,包括你最常用哪些命令,你有哪些重复性的操作模式,然后给你推荐一些自定义命令和Skills。比如我现在我开发了一个功能,我觉得不好,想撤销,我就可以先打/rewind,然后把这个会话里面的历史拽出来。在终端里打/rc,或者打完整的/remote-control,它会生成一个URL。按两下Esc,你可以把他理解成撤销或者回退。

2026-03-21 09:02:42 391

原创 TASK01|论文工作流

模式是一种过度依赖个人记忆力与灵感、仅靠 Word 单打独斗的低效作业,它往往受困于“读完再写”的线性流程和畏惧失败的完美主义心态;而新模式则将科研视为产品开发,核心依赖转向了稳定的外部工具库与标准作业流程(SOP),通过模块化并行实现“边做边写”,并利用全套数字化“科研军火库”来支持快速试错与迭代,从而将科研从不确定的个人创作升级为可控的系统化生产。

2026-03-18 15:19:46 387

原创 Datawhale组队学习-【AI4S】公开课 Lesson 1:流体场自编码器

这张图里总结了通用的好的表征学习表征问题往往先于模型问题表征决定模型上限好的表征学习,就是把复杂的原始数据(图像、分子、文本等)映射到一个**既保持了原始结构(距离保持、连续性),又方便我们操作(可插值、可加性)**的向量空间,让后续的机器学习任务(分类、生成、预测)变得更容易、更鲁棒。两种典型的 “坏” 情况情况一:距离高估(Distance Overestimate)**现象:**两张几乎一样的椅子(原始距离很小),被映射到表征空间后,它们的向量距离却非常大(图中 d=9.8)。

2026-03-05 23:10:53 489

原创 vibe-vibe |基础版

部署平台对比官网:vercel.com简介:最流行的前端部署平台,Next.js 的官方部署平台。官网:pages.github.com简介:GitHub 提供的免费静态网站托管服务。官网:railway.app简介:适合部署有后端服务的应用。官网:pages.cloudflare.com简介:Cloudflare 推出的静态网站托管服务。基本流程:把代码推送到 GitHub在部署平台连接 GitHub 仓库平台自动检测、构建、部署获得一个可访问的网址。

2026-01-17 20:10:16 783

原创 【datawhale组队学习】|TASK02|结构化输入

Schema 是编排者与 AI Agent 之间签订的“数据契约”。原子性(Atomicity): 将复杂信息拆解为最小单元(例如将 summary 拆解为 executive_summary, key_points, action_items)。类型约束(Type Constraints): 明确指定字段类型(string, integer, boolean, array)。案例。

2025-12-18 20:48:32 1063

原创 【datawhale组队学习】TASK01|课程导论:站在认知范式的临界点

当我们在“表达”环节获得了一个惊艳的结果时,不应止步于此。我们需要利用“逆向提示(Reverse Prompting)”技术让 AI 分析“是怎样的 Prompt 生成了这个结果”,从而将这次成功的偶发经验固化为可复用的 Prompt 模板。这不仅是个人知识库的建设,更是将隐性知识显性化、标准化的过程,为下一次工作流的启动提供了更高的起点。MVW(最小可行工作流)被定义为能够把一个具体任务从输入跑到输出的、当前条件下最简单可行的工作流版本。

2025-12-16 22:42:41 885

原创 TASK05 Patterns for Highly Autonomous Agents(实验未做版本)

它代码简洁,抽象程度少,工具开发难度低(只需要一个@tool装饰器),自由程度高,也具有流程跟踪功能,开发者很容易入门,也很方便理解重写其中的一些逻辑,来实现自己定制化的系统。可以看出,规划模式的Agent有许多好处,比如Agent拥有非常丰富的能力,进而扩展了能执行的任务范围。类似地,设计多智能体系统的通信模式也同样复杂,而组织结构的好坏会极大影响系统的效率与结果。当然,大部分框架都可以同时实现这些不同的结构,只是代码风格不同,读者可以自行多尝试,找到自己最喜欢的框架,与最适合某项具体任务的框架。

2025-11-23 20:38:55 752

原创 Agentic TASK04 Practical Tips for Building Agentic AI

详细总结:代理式 AI 系统开发流程与迭代循环( Development process summary )编写软件和代码来改进系统。决定下一步将构建精力集中在哪里的过程,其重要性与构建相当。显然,开发是一个非线性的过程,需要在调整系统、错误分析、改进组件和调整评估之间反复横跳。许多经验不足的团队往往花太多时间在构建上,而太少时间在分析上,导致工作重点不集中,效率低下。在早期,市面上有许多工具可以帮助监控追踪、记录运行时、计算成本等。团队可以尽情使用这些前人造的轮子。

2025-11-19 20:58:55 815

原创 【Datawhale组队学习】吴恩达Agentic TASK03 Tool use

*重要性:**代码执行是使智能体式应用变得极其强大的关键工具。**行业趋势:**许多大型语言模型的训练者会专门优化模型,以确保其在应用中代码执行功能的良好表现。开发者需要手动为智能体系统创建并添加工具。一个新的标准——MCP (Model Context Protocol) 正在兴起,它旨在让开发者更容易地访问一套庞大的工具集,供大型语言模型使用,从而简化开发流程。

2025-11-15 12:17:25 857

原创 Hello-agents TASK03 第四章节 智能体经典范式构建

如果说大语言模型是智能体的大脑,那么工具 (Tools) 就是其与外部世界交互的“手和脚”。为了让ReAct范式能够真正解决我们设定的问题,智能体需要具备调用外部工具的能力。针对本节设定的目标——回答关于“华为最新手机”的问题,我们需要为智能体提供一个网页搜索工具。在这里我们选用 SerpApi,它通过API提供结构化的Google搜索结果,能直接返回“答案摘要框”或精确的知识图谱信息,# ... (保留之前的LLM配置)接下来,我们通过代码来定义和管理这个工具。

2025-11-14 23:50:37 889

原创 Hello-agents TASK02 第三章节 大模型基础

从 N-gram 到 RNN语言模型 (Language Model, LM) 是自然语言处理的核心,其根本任务是计算一个词序列(即一个句子)出现的概率。一个好的语言模型能够告诉我们什么样的句子是通顺的、自然的。在多智能体系统中,语言模型是智能体理解人类指令、生成回应的基础。本节将回顾从经典的统计方法到现代深度学习模型的演进历程,为理解后续的 Transformer 架构打下坚实的基础。在深度学习兴起之前,统计方法是语言模型的主流。其核心思想是,一个句子出现的概率,等于该句子中每个词出现的条件概率的连乘。

2025-11-12 22:49:09 657

原创 Agentic AI TASK02 Reflection Design and Pattern

直接生成”是AI最基础、最直观的工作方式,也常被称为“零样本提示”(Zero-shot Prompting)。特点: 简单、快速、一步到位。它不提供任何中间反馈或修正的机会。术语解释: “零样本提示”中的“零样本”指的是在提示中没有提供任何输入-输出示例。这与“单样本提示”(One-shot)和“少样本提示”(Few-shot)形成对比。零样本 (Zero-shot): 写一个关于黑洞的文章(无示例)单样本 (One-shot): 写一个关于黑洞的文章 + 示例1。

2025-11-12 18:51:55 878

原创 Agentic TASK01

所有步骤都是预先设定好的,所有工具调用都是硬编码的(Hard-coded),由人类工程师在代码中固定;这就像你指挥一个“听话但不会动脑”的助手:你得一步步告诉它做什么、什么时候查资料、怎么整理。找到结果后,它自己判断:“我要选5个最好的来源” → 调用“web fetch” + “pdf to text”工具提取内容。LLM 自己决定:先“web search”查资料 → 并且能调用“news”和“arXiv”等工具,找最新科研动态。代理能自主做出大量决策;调用工具: 模型生成调用该工具的指令或参数。

2025-11-10 23:46:12 492

原创 Grad-CAM

Grad-CAM(Gradient-weighted Class Activation Mapping)是CAM(Class Activation Mapping)的升级版(论文3.1节中给出了详细的证明),Grad-CAM相比与CAM更具一般性。https://www.bilibili.com/video/BV1sb411P7pOhttps://www.bilibili.com/video/BV1qb411P7JD卷积神经网络精讲。CAM算法中,必须有GAP层,否则无法计算每个channel的权重。

2025-10-27 10:52:47 805

原创 chp03【组队学习】Post-training-of-LLMs

具体来说,当询问身份时,我们将身份名称从“Qwen”改为“Deep Qwen”,并使用“Deep Qwen”作为正样本(优选回答),“Qwen”作为负样本(劣选回答)。所以,可以将这里提到的完全训练好的 Qwen 模型视为小模型在小数据集上训练的快速验证结果,这样我们就有机会看到完整的 DPO 训练过程,而无需在有限的计算资源上等待太久。上使用一个只将“Qwen”改为“Deep Qwen”的更小的数据集进行训练,所以这种训练不期望能达到我之前展示的(在更大模型和更大数据集上训练的)相同效果。

2025-10-26 16:58:27 1124

原创 chp04【组队学习】Post-training-of-LLMs

在本实验中,我们将首先策划一组数学题目,(GSM8K数据集,下图)将其输入当前语言模型,并让模型生成多条回复;我们在helper.py中默认最大输出的token数是300,如果想扩大token数,可以在Lesson_7.ipynb文件中将 generate_responses函数加入max_new_tokens参数,并进行修改,例如变成1000。,所以我们在这里要做的是:我们首次尝试做正则表达式网格,去捕获盒内的内容,正如我们提供的那样,在系统提示的指令中。如果没有匹配,我们就让模型的输出在这里为空。

2025-10-26 16:01:53 962

原创 Post-training-of-llms TASK05

未见过的任务表现骤降:当让它去写一篇 “科幻小说”(属于原生分布但不属于公文分布的场景)时,它可能因为之前的参数调整,写出来的内容既不像公文也不像合格的小说 —— 这就是 “在未见过的任务上表现骤降”。破坏通用特征:这些调整可能会 “扭曲” 它原本的 “叙事逻辑”(比如写小说时本该有情节起伏,却习惯性地写得像公文一样刻板),也可能让它的 “词汇库” 变得单一(只会用公文词汇,不会用文学性词汇)。假设模型是一位擅长写各种风格文章的作家(原生能力空间,包含 “叙事逻辑”“词汇运用”“情感表达” 等通用特征)。

2025-10-26 16:01:20 952

原创 好用的python函数

陌生项目里,变量的类型可能很复杂(比如不是普通列表,而是 pandas.DataFrame 或自定义类),type() 能帮你 “戳穿” 它的真实身份。如果变量是复杂结构(比如嵌套字典、长列表),用普通 print() 会看得眼花缭乱,pprint 能帮你 “美化格式”,清晰展示层级。拿到一个陌生的项目文件夹,想知道某个 .py 文件(模块)里有什么函数 / 类,不用打开文件,用 pkgutil 能快速扫描。比如项目有个 utils 文件夹,想知道里面有哪些 .py 文件和功能,用这个函数能快速遍历。

2025-10-26 14:32:41 357

原创 【datawhale秋训营】动手开发RAG系统(应急安全方向) TASK02

本方案是一个基于 RAG 的纯文本文档问答系统。它将所有政策法规、标准规范等文本数据构建成向量索引,利用大语言模型回答相关问题。此方案未处理任何表格数据。

2025-10-26 13:15:17 1189

原创 Hello-agent TASK01

要理解智能体的运作,我们必须先理解它所处的任务环境。在人工智能领域,通常使用PEAS模型来精确描述一个任务环境,即分析其性能度量(Performance)环境(Environment)执行器(Actuators)和传感器(Sensors)。以上文提到的智能旅行助手为例,下表1.2展示了如何运用PEAS模型对其任务环境进行规约。在实践中,LLM智能体所处的数字环境展现出若干复杂特性,这些特性直接影响着智能体的设计。记忆和探索能力】首先,环境通常是部分可观察的。

2025-10-26 11:41:13 1142

原创 【组队学习】Post-training-of-LLMs TASK02

SFT 的效果高度依赖于数据质量。优质且多样的样本能让模型学到有用的行为;通过训练提示与理想回应的成对数据,模型学会模仿示例中的回答,从而能够按照指令行事、展示期望的行为并正确调用工具。全参数与参数高效微调之间的选择则是性能和资源之间的权衡。它通过最小化目标回复的负对数似然,使模型学会模仿期望的行为并在面对提示时做出合适回应。SFT 特别适合用于启动新行为和从大模型向小模型“蒸馏”能力。这一损失鼓励模型最大化在每个提示条件下生成目标回应的概率。时,SFT 往往是正确的选择。是语言模型对齐的重要基础方法。

2025-10-15 23:25:51 1102

nltkdata下载后放到指定位置,比如home目录下

nltkdata下载后放到指定位置,比如home目录下

2025-08-18

graph mini-batch

graph mini-batch

2025-08-06

graph attention network

graph attention network

2025-07-31

大语言模型ppt,讲了一些相关的技术,引用了一些资源

大语言模型ppt,讲了一些相关的技术,引用了一些资源

2025-07-31

大学生入学需要的信息检索能力.doc

大学生入学需要的信息检索能力.doc

2024-10-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除