- 博客(222)
- 收藏
- 关注
原创 从“字节”到“自注意力”:把大模型参数这件事讲透
这篇文章深入探讨了模型参数(如 0.6B、1.7B、7B)背后的工程含义。其实,选择合适的模型不仅是看参数数量,而是要综合考虑显存、推理成本和任务类型。任务越复杂,模型需要的“推理结构密度”就越大,因此更大的参数模型能带来更稳定的输出和多任务能力。工程中,可以通过来帮助团队在推理过程中优化性能并降低成本。很多人听到“0.6B / 1.7B / 7B”会下意识把它当成“模型大小”。工程里它更像一张账单:你要为多少付存储费,为多少付显存费,为多少付长上下文费,还要为多少次付算力费。
2026-02-02 15:03:53
424
原创 Qwen3.5 的起步档:0.6B 与 1.7B,差的不只是参数量
本篇分析把小模型选型的问题拉回到工程本身:关键不在参数大小,而在任务是否需要持续推理和可复现的中间状态。0.6B 适合当“语言算子”,1.7B 更像可托付给流程的组件,落地时往往能减少系统复杂度。实践中,可以结合,把模型能力更稳地嵌进真实业务链路。过去一年,小参数模型完成了一次非常关键的身份转变。它们逐渐从“实验玩具”走进真实工程,开始承担稳定、可重复、可部署的工作。本地部署、低成本推理、端侧运行、私有化合规,这些现实约束不断把开发者往更小的模型推,也让模型选型从“越大越好”变成了“刚刚好最好”。
2026-02-02 14:27:13
279
原创 Clawdbot 是一个“把大模型接进真实系统里干活”的 Bot 执行器
如果一个东西能回答你这个问题:“这个事,以后能不能每天自动跑?那它就已经越过 LLM,进入这个层级了。
2026-01-30 14:39:40
765
原创 大模型发展历程:从 Transformer 到多模态智能体(2017–2025)
2017 年 Transformer 解决了“训练效率与长依赖”的结构性问题;2020 年规模化让模型第一次呈现出“可迁移的通用能力”;2023–2025 年多模态、长上下文与 Agent 化把模型推向“能完成任务的系统组件”。未来竞争焦点会更偏向:谁能把模型能力组织成稳定、可控、可审计的生产力系统。
2026-01-30 11:41:44
611
原创 给你一份 M4 32GB 的本地大模型清单
很多人买了 M4 32GB,第一反应是:“我要不要冲 30B / 70B?M4 32GB 的价值,不在于极限参数,而在于:你可以同时、稳定、长期地用好 7B + 13B。这是很多显存更小的独显 PC,反而做不到的事。如果你愿意,下一步我可以继续帮你做一件更落地的事:按给你一份M4 32GB 的具体启动参数 + 内存预算表让你直接照着跑,不踩坑。
2026-01-27 09:44:04
823
原创 为什么 M4 32GB 的“显存体验”会和 PC 独显完全不一样?一篇把差异讲透的深度文章
很多人问,其实背后隐藏的是一个更关键的问题:同样写着“32GB”,为什么上跑本地大模型的体验,和 PC 上 12GB / 16GB 独显完全不是一个逻辑?答案不在“参数对比表”,而在两套截然不同的PC 的和 Apple 的。
2026-01-27 09:38:37
842
原创 普通个人电脑能跑多大的大模型?显存、模型规模与 CPU+GPU 的现实解法
个人电脑的本地大模型时代拼的早就不是“我能不能跑 30B”而是“我能不能天天用、放心用、不卡死用”CPU + GPU 结合,不是噱头,而是普通人唯一可持续的解法。
2026-01-27 09:34:27
850
原创 LLaMA 3.2 1B / 3B、Qwen2.5 3B / 7B(Q4)、Mistral 7B(Q4_K_M)CPU 本地推理时代的三种“性格模型”,该怎么选?
你把模型放在系统里的哪个位置。不是谁取代谁,而是各司其职。
2026-01-27 09:29:25
742
原创 不加显卡:本地大模型的真实上限(CPU 跑)
很多人一聊本地大模型,第一反应就是显卡、显存、4090、A100。但真正落到我直接给结论,然后再拆解理由。
2026-01-27 09:24:27
1051
原创 Dify 深度解析:从 LLM 应用搭建到 LLMOps(RAG、工作流、工具调用、评测与上线)
(示意图占位:《本地 Compose:Web / API / Worker / DB / Vector Store》— 可谷歌搜索:“dify docker compose architecture”)如果你告诉我你准备做的应用类型(客服知识库 / 内部 Copilot / 数据分析助手 / 工单流转 / 内容生成),我可以把这篇文章里的“能力地图”进一步落成一套更具体的落地架构与工作流拆分。很多团队并不是“全用 Dify”,而是“让 Dify 做编排,让业务服务做事实来源”。
2026-01-13 17:14:39
721
原创 n8n 专题:从“自动化脚本”到“可视化工作流引擎”(自建、节点、Webhook、生产部署)
挺好。(示意图占位:《n8n 工作流:Trigger → Nodes → Output 数据流图》— 可谷歌搜索:“n8n workflow diagram”)
2026-01-13 17:07:55
458
原创 为什么 MCP 本质上是一种「后 IP 时代的能力寻址」
你这篇的定位,其实已经。我会在的前提下,帮你把这篇内容——不是靠情绪,也不是靠宏大词汇,而是靠。下面这版,不是重写,而是。
2026-01-06 14:19:43
379
1
原创 为什么 Serverless 时代,IP 正在“消失”
IP 并没有过时,它只是不再属于“应用层思考”的一部分。Serverless 并不是“不要网络”,而是终于把网络,变成了平台该操心的事情。未来的软件,不再部署在某个地方,而是存在于“可被路由的能力”之中。
2026-01-06 14:12:25
445
原创 你以为域名只是个“网址”,其实它是整个互联网最早的调度系统
域名不是入口,它是协议层之上的“秩序”。DNS 不是配置文件,而是人类在不可靠网络中建立的第一套抽象系统。当你真正理解这一点时,你就不会再纠结“为什么 DNS 生效这么慢”,我到底想让这个域名,替我承担什么责任。
2026-01-06 14:10:17
1114
原创 OpenAI:从“开放理想”到“时代引擎”的十年跃迁
回头看十年,你会发现 OpenAI 并没有背离最初的目标。不是让 AI 慢一点,而是抢在一切失控之前,先把方向盘握在自己手里。这条路,没有道德高地,只有工程抉择。而我们,已经坐在车上了。
2026-01-04 16:12:43
246
原创 为什么 AI 写得越快,软件反而越难理解
在上世纪六十年代末,随着系统规模增长到开发者已无法有效掌控的程度,“软件危机”(Software Crisis)这一说法首次出现。此后,每一代人似乎都用更强大的工具“解决”了这场危机,但结果往往只是制造出了更大的问题。。由 AI 生成的代码库,本质上是生成它们的那一连串曲折对话的映射。每一次澄清、每一次方向调整,都会被直接固化进系统架构中。我们正在用 vibe coding 的方式,一步步走向灾难。
2026-01-04 16:02:25
736
原创 从单一残差流,看懂 Prompt 为什么“能工作”
如果把 Transformer 看成一个世界模型,那么残差流就是它的世界状态。Prompt 的意义,也就不再神秘了:它是你能直接触碰这条状态流的最原始、最粗暴、但也最有效的方式。你不是在命令模型怎么想,你是在帮它选一个一开始就站得住的方向。理解这一点,你就不再纠结 Prompt 的“话术”,而会开始真正做一件更高级的事:状态设计。这,才是 Prompt 能工作的真正原因。
2026-01-04 10:53:17
951
原创 单一残差流:大模型真正的“高速公路”
Transformer 不是多模块协作系统,而是一条单一残差流上的连续写作过程。都只是往这条流里,写下不同风格的注释。你理解了这一点,才算真的站在了“大模型工程”的地基上。
2026-01-04 10:49:31
891
原创 梯度下降如何把学习变成一件可执行的事
很多人第一次真正理解“学习”这件事,并不是在学校,而是在模型第一次开始收敛的时候。你盯着屏幕,看着 loss 从一个混乱的数字慢慢往下掉,那一刻会突然意识到:原来学习不是顿悟,也不是聪明,而是一种可以被执行、被重复的动作。没有宏伟蓝图,没有全局视角,甚至不保证你走在一条通往最优解的路上,它只在乎当前这一步是不是让误差变小。当你理解这一点,你会发现,模型训练、工程迭代、个人成长,其实都共享同一套隐秘逻辑。但一旦把它写成代码,梯度下降立刻暴露出它真实的样子:一个循环,一个反馈,一个不断微调的过程。
2025-12-31 16:04:01
287
原创 梯度下降:机器学习世界里,最朴素也最残酷的算法
但真正在工程里起作用的,从来不是这些符号,而是一个极其朴素的判断:如果我再这样走下去,代价是变大还是变小。梯度就是这种感知,它不是答案,只是一种局部的方向感。每一步都带着误差,每一次更新都不完美,但正是这些抖动,让模型不至于被困在某个看似合理的低谷里。慢慢地你会意识到,梯度下降并不只是在优化函数,它在塑造一种对复杂性的态度。可只要你真的做过模型训练,盯过 loss 曲线熬过夜,就会意识到,这个世界上大多数复杂系统,最后都屈服在这个动作之下。」,不做结构化拆解,不拉长横线,不搞“讲义感”,而是。
2025-12-31 16:01:01
196
原创 AI 教父与 AI 教母:他们不是造神的人,而是点燃时代的人
很多人第一次听到“AI 教父”“AI 教母”这两个称呼,都会下意识觉得:这是不是媒体造出来的词?是不是又在给技术人物加光环?但如果你真的顺着今天的大模型、ChatGPT、自动驾驶、视觉识别这条技术链条往回追,会发现一个有点残酷、也有点浪漫的事实——而“教父”和“教母”,指的正是其中两种完全不同、却又彼此互补的力量。
2025-12-30 09:59:56
993
原创 意图识别深度原理解析:从向量空间到语义流形
意图识别的技术演进,本质上是语义表示能力不断增强的过程。从统计词频到理解上下文,再到如今的少样本学习和联合建模,我们正在无限逼近人类的理解能力。对于开发者而言,理解这些底层原理,才能在模型调优和架构选型时游刃有余。
2025-12-12 22:59:31
967
原创 意图识别面试通关指南:从基础问答到场景落地
意图识别本质上是一个文本分类任务。它的目标是将用户的自然语言输入映射到预定义的意图类别(如“查天气”、“订机票”、“播放音乐”)中。在对话系统架构中,它通常位于 NLU(自然语言理解)模块,紧随分词/预处理之后,与槽位填充(Slot Filling)共同构成 NLU 的两大核心任务。面试中除了背诵八股文,更重要的是结合自己的项目经历,阐述在面对具体困难(如数据少、噪音大、实时性要求高)时的思考过程和解决方案。祝大家面试顺利!
2025-12-12 22:58:50
660
原创 为什么你的显卡装不下100B模型?深度解析大模型精度与显存
追求极致效果 / 科研微调:请死守。企业级推理 / 追求性价比INT8是最稳妥的选择。个人玩家 / 本地部署:毫不犹豫选择INT4。它是让大模型飞入寻常百姓家的关键钥匙。下次当你看到 HuggingFace 上的时,你应该能会心一笑:这正是为你省下的那 150GB 显存。
2025-12-11 17:24:17
997
原创 为什么你的笔记本能跑70B模型?深度解析稀疏激活(Sparse Activation)技术
稀疏激活技术正在重塑大模型的推理范式。它证明了**暴力美学(堆参数)**之后,**精细化管理(稀疏化)**才是通往 AGI 的必经之路。无论是 DeepSeek V3 的高效架构,还是让 Llama 3 在手机上飞奔的端侧技术,背后都离不开 Top-k Gating 和 Activation Pruning 的身影。理解了这两个机制,你就理解了下一代 AI 基础设施的核心秘密。如果你也在关注大模型推理优化,欢迎在评论区交流你的看法!
2025-12-11 17:18:55
890
原创 AI Agent进化论:从LLM到自主智能体的范式跃迁
AgentLLMPlanningMemoryToolsAgentLLMPlanningMemoryToolsLLM(大脑):核心控制器。负责理解用户意图、进行逻辑推理、生成决策指令。没有LLM,Agent就是一堆死板的代码;有了LLM,Agent才有了“灵魂”。Planning(规划)子目标分解:将复杂的大目标(如“开发一个贪吃蛇游戏”)拆解为一系列可执行的小步骤(编写逻辑、设计UI、测试运行)。反思与修正。
2025-12-09 08:35:28
1171
原创 构建超级个体:AI Agent核心架构与落地实践全景解析
如果说LLM是电力,那么AI Agent就是各种电器。从单体智能到多智能体协作(Multi-Agent),Agent架构正在重塑软件开发的格局。本文将深入探讨Agent的主流架构模式(Router, Map-Reduce, Reflection),解析LangChain、AutoGen等开发框架的实战代码,并剖析企业级落地的真实挑战(幻觉、死循环、安全)与解决方案。
2025-12-09 08:34:48
1037
原创 混乱是阶梯:随机性与进化的本质
所以,不要惧怕混乱。在算法中,我们引入噪声(Noise)来防止过拟合;在进化中,基因通过突变(Mutation)来寻找新的出路。混乱不是阻碍,它是阶梯。它是系统打破平衡、跃迁至更高维度的唯一路径。
2025-12-04 15:00:07
319
原创 视觉标注:AI 进化的隐形引擎与“数据中心”革命
吴恩达(Andrew Ng)近年来一直在呼吁Data-Centric AI(以数据为中心的 AI)。他认为,现在的模型架构已经足够成熟,与其花几个月去微调模型参数提升 0.1% 的精度,不如花几天时间清洗和修正标注数据,往往能带来 10% 的提升。视觉标注,正在从一项劳动密集型工作,转变为一项知识密集型工作。未来的 AI 工程师,可能一半的时间不是在写代码,而是在设计“如何教机器看世界”的课程大纲(标注策略)。如果说代码是 AI 的骨架,那么标注数据就是 AI 的灵魂。
2025-12-02 11:22:05
1011
原创 深度解析 ImageNet 与李飞飞:当数据成为 AI 的眼睛
ImageNet 就像是 AI 历史上的一座灯塔。它结束了那个算法在黑暗中摸索的时代,开启了深度学习的黄金十年。有时候,改变世界的不是更复杂的公式,而是对基础数据的尊重和对人类认知的深刻理解。如果说 ImageNet 是教会了机器“睁眼看世界”,那么现在的空间智能和具身智能,就是在这个基础上,试图让机器“走入世界”。如果你也在关注从计算机视觉到具身智能的跨越,或者对李飞飞教授的理念有自己的理解,欢迎在评论区留言交流。让我们一起见证 AI 从“旁观者”变成“参与者”的时刻。
2025-12-02 11:14:57
706
原创 反向传播算法深度解析:从梯度消失到误差的逆向旅行
反向传播则是把“预测错了多少”这个误差信息,从最后一层邮局一层层往回传,告诉每一层邮局的工作人员:“你刚才的处理方式需要调整,调整幅度就是误差对你的影响程度。真正的收获不只是知道了链式法则,而是在脑子里形成了一张“误差流动图”:从输出层的损失,到每一层的梯度,再到权重更新的幅度。梯度大的权重,说明它对最终误差贡献大,需要大幅调整。从输出可以看到,随着训练进行,梯度范数逐渐减小(说明网络接近收敛),误差从输出层(delta2)传播到隐藏层(delta1)时会有衰减,这正是反向传播的直观体现。
2025-11-29 06:30:00
322
原创 反向传播算法:误差的逆向旅行
过去十年,深度学习从一个学术概念变成了工业界的标配工具。但很多开发者在使用 TensorFlow 或 PyTorch 训练模型时,只知道调用,却不知道误差信号是如何从输出层一层层倒流回输入层的。当网络不收敛、梯度消失、训练卡住时,只能盲目调参,却无法定位问题根源。反向传播算法,就是让神经网络"学会"的核心机制。它不是自动求导库的魔法,而是链式法则在计算图上的工程实现。理解它,你就能看懂为什么某些网络结构会失败,为什么某些激活函数更适合深层网络,为什么残差连接能让训练更稳定。
2025-11-28 09:00:00
715
原创 如何用 Python 构建“智能图注管理器”:让 Markdown 图片资产自动化、结构化、语义化
写技术文章写到一定体量,最大的痛点不是写,而是图片越来越多,命名越来越乱,图注不统一、章节跳号、上下文混乱……最后你自己都无法从文件堆里找到某张图。放在仓库里完全没法用。于是我做了一个脚本:它能自动扫描 Markdown、智能识别图片上下文、抽取关键词、生成图注、重命名图片文件,让整个写作工程具备**“规范又自动”**的感觉。这篇文章就带你把这个脚本的工程逻辑拆开,真正理解它是怎么实现“图资产智能化”的。
2025-11-27 11:01:21
389
原创 Kubernetes 可观测性落地纪实:从脏指标到自愈路径
这个场景听起来平常,却是很多团队每天都在经历的:指标说宕机,日志说正常,真实用户体验早已下降。所以我们给每个重要事件加了“上下文贴纸”:Namespace、Pod、节点、Git 提交、灰度批次,让人即使只看事件流也能猜到故事的发展。我们把 Grafana 仪表改成“事件条 + 指标折线 + 日志切片”联动视图,值班同学点一下事件条,就能在同一屏里看到当时的 CPU、延迟和关键日志。的解析过程,并按 Namespace + 原因聚合,同时给你一个“最可能要检查的指标列表”,方便值班同学秒级定位。
2025-11-27 09:00:00
345
原创 湖仓一体指标回放:从运营复盘到数据织布
这种痛点的根源是:湖仓一体没有真正落地,湖里的实时埋点与仓库的指标脱节,运营只能在 PPT 上猜想。解决方案不是“再建一个表”,而是把湖和仓的故事线连起来,让任何人都能回放任意时间段的指标。我们在仪表里增加“回放”按钮,一键把 12:00~13:00 的事件重放到临时表,帮助运营“看见”那一小时发生了什么。下列脚本把实时事件(JSON Lines)和交易事实表(CSV)接入 DuckDB,构建一个 10 分钟粒度的“回放指标”,并输出 GMV、转化率、热门渠道。列展示出视图到支付的比率,若为。
2025-11-27 07:00:00
369
原创 边缘 LLM 推理路径图:从工厂噪声到低延迟部署
某天凌晨,机器人突然停线,原因不是模型准确率,而是推理等待队列爆炸,延迟超过 1 秒,设备被判定超时。出口就像地铁换乘大厅,指示牌要极其清晰,否则乘客就乱跑。和“微批调度器”,它会等待 60ms 收集请求,形成批次后再调用模型,同时输出等待时间,帮助你验证在噪声网络下的调度策略。在扩展实验里,你能看到等待时间被限制在 60ms 左右,而推理耗时稳定,说明微批策略既保持了延迟上限,也提升了吞吐。,分别以“单请求”和“批处理”方式运行,记录延迟和输出,帮助你快速评估“延迟 vs 吞吐”取舍。
2025-11-26 10:20:24
411
原创 KVCache 在大模型推理中的作用:为什么它能让模型“越算越快”?
那天我在本地跑一个 7B 模型,连续生成几段代码。第一句输出还算平稳,第二句突然变快,第三句几乎是“刷刷刷”地蹦出来。我当时愣了一下——按常识来说,上下文越长,模型应该越慢,怎么反过来了?在工程群里问了一圈,答案都很一致:但这句话对大部分人来说更像一个黑箱。所以今天我们不从术语、不从公式开始,而是一起从“模型为什么会越算越快”这个真实的体验出发,把 KVCache 讲成你脑子里能长出结构、工程师能真正看懂的东西。
2025-11-26 08:00:00
1031
原创 大模型:从「语言能力」到「系统能力」的演化,你需要补上的那块认知拼图
理解模型的底层推理方式(空间推理,而不是知识检索)把模型融入业务流程,而不是拿来问问题在架构中明确“模型 vs 人 vs 工具”的分工如果你能做到这三件事,你会发现:你的迭代速度会快得惊人你的系统复杂度会被模型吸收你的个人生产力会被无限放大而这,就是大模型正在带来的真正革命。
2025-11-25 07:00:00
639
原创 卷积:它不是公式,它是模型看世界的方式
有时你可能会遇到这样的瞬间:模型在识别一张图片、分辨一段语音或提取特征时,总像是“突然就懂了”。而当你深入代码,发现那行看似无害的conv2d我第一次意识到卷积的重要性,是在调试一个简单的边缘检测 Demo。当时我还天真地以为卷积就是“滑一下、乘一下、加一下”。这一刻,我意识到卷积不是数学概念,而是一个思考方式。接下来,我想带你一起走一遍卷积“看世界”的方式,用类比、可视化、伪代码与 NumPy 实验,把它从抽象公式变成你能“感觉到”的东西。
2025-11-24 21:36:02
859
原创 PyTorch:写给每一个想真正吃透深度学习的人
很多人第一次写深度学习模型时都会经历同一个瞬间:代码能跑,但你根本不知道它「为什么能跑」。尤其在使用 PyTorch 的时候,你会觉得它既顺手又神秘——张量能随意在 GPU 上飞来飞去,自动求导像魔法一样,网络结构像乐高随便拼就是一个 SOTA baseline。但如果你想从“能跑”走向“理解”,你得真正知道 PyTorch 在做什么。今天这篇文章,我会带你一次性把 PyTorch 的核心原理、心智模型与可复现实操全部讲清楚。整个过程不堆概念、不摆公式,而是让你像拆一个发动机一样,看懂每一颗螺丝的意义。H
2025-11-24 21:04:34
833
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅