- 博客(204)
- 收藏
- 关注
原创 梯度下降如何把学习变成一件可执行的事
很多人第一次真正理解“学习”这件事,并不是在学校,而是在模型第一次开始收敛的时候。你盯着屏幕,看着 loss 从一个混乱的数字慢慢往下掉,那一刻会突然意识到:原来学习不是顿悟,也不是聪明,而是一种可以被执行、被重复的动作。没有宏伟蓝图,没有全局视角,甚至不保证你走在一条通往最优解的路上,它只在乎当前这一步是不是让误差变小。当你理解这一点,你会发现,模型训练、工程迭代、个人成长,其实都共享同一套隐秘逻辑。但一旦把它写成代码,梯度下降立刻暴露出它真实的样子:一个循环,一个反馈,一个不断微调的过程。
2025-12-31 16:04:01
253
原创 梯度下降:机器学习世界里,最朴素也最残酷的算法
但真正在工程里起作用的,从来不是这些符号,而是一个极其朴素的判断:如果我再这样走下去,代价是变大还是变小。梯度就是这种感知,它不是答案,只是一种局部的方向感。每一步都带着误差,每一次更新都不完美,但正是这些抖动,让模型不至于被困在某个看似合理的低谷里。慢慢地你会意识到,梯度下降并不只是在优化函数,它在塑造一种对复杂性的态度。可只要你真的做过模型训练,盯过 loss 曲线熬过夜,就会意识到,这个世界上大多数复杂系统,最后都屈服在这个动作之下。」,不做结构化拆解,不拉长横线,不搞“讲义感”,而是。
2025-12-31 16:01:01
162
原创 AI 教父与 AI 教母:他们不是造神的人,而是点燃时代的人
很多人第一次听到“AI 教父”“AI 教母”这两个称呼,都会下意识觉得:这是不是媒体造出来的词?是不是又在给技术人物加光环?但如果你真的顺着今天的大模型、ChatGPT、自动驾驶、视觉识别这条技术链条往回追,会发现一个有点残酷、也有点浪漫的事实——而“教父”和“教母”,指的正是其中两种完全不同、却又彼此互补的力量。
2025-12-30 09:59:56
742
原创 意图识别深度原理解析:从向量空间到语义流形
意图识别的技术演进,本质上是语义表示能力不断增强的过程。从统计词频到理解上下文,再到如今的少样本学习和联合建模,我们正在无限逼近人类的理解能力。对于开发者而言,理解这些底层原理,才能在模型调优和架构选型时游刃有余。
2025-12-12 22:59:31
910
原创 意图识别面试通关指南:从基础问答到场景落地
意图识别本质上是一个文本分类任务。它的目标是将用户的自然语言输入映射到预定义的意图类别(如“查天气”、“订机票”、“播放音乐”)中。在对话系统架构中,它通常位于 NLU(自然语言理解)模块,紧随分词/预处理之后,与槽位填充(Slot Filling)共同构成 NLU 的两大核心任务。面试中除了背诵八股文,更重要的是结合自己的项目经历,阐述在面对具体困难(如数据少、噪音大、实时性要求高)时的思考过程和解决方案。祝大家面试顺利!
2025-12-12 22:58:50
621
原创 为什么你的显卡装不下100B模型?深度解析大模型精度与显存
追求极致效果 / 科研微调:请死守。企业级推理 / 追求性价比INT8是最稳妥的选择。个人玩家 / 本地部署:毫不犹豫选择INT4。它是让大模型飞入寻常百姓家的关键钥匙。下次当你看到 HuggingFace 上的时,你应该能会心一笑:这正是为你省下的那 150GB 显存。
2025-12-11 17:24:17
926
原创 为什么你的笔记本能跑70B模型?深度解析稀疏激活(Sparse Activation)技术
稀疏激活技术正在重塑大模型的推理范式。它证明了**暴力美学(堆参数)**之后,**精细化管理(稀疏化)**才是通往 AGI 的必经之路。无论是 DeepSeek V3 的高效架构,还是让 Llama 3 在手机上飞奔的端侧技术,背后都离不开 Top-k Gating 和 Activation Pruning 的身影。理解了这两个机制,你就理解了下一代 AI 基础设施的核心秘密。如果你也在关注大模型推理优化,欢迎在评论区交流你的看法!
2025-12-11 17:18:55
858
原创 AI Agent进化论:从LLM到自主智能体的范式跃迁
AgentLLMPlanningMemoryToolsAgentLLMPlanningMemoryToolsLLM(大脑):核心控制器。负责理解用户意图、进行逻辑推理、生成决策指令。没有LLM,Agent就是一堆死板的代码;有了LLM,Agent才有了“灵魂”。Planning(规划)子目标分解:将复杂的大目标(如“开发一个贪吃蛇游戏”)拆解为一系列可执行的小步骤(编写逻辑、设计UI、测试运行)。反思与修正。
2025-12-09 08:35:28
1128
原创 构建超级个体:AI Agent核心架构与落地实践全景解析
如果说LLM是电力,那么AI Agent就是各种电器。从单体智能到多智能体协作(Multi-Agent),Agent架构正在重塑软件开发的格局。本文将深入探讨Agent的主流架构模式(Router, Map-Reduce, Reflection),解析LangChain、AutoGen等开发框架的实战代码,并剖析企业级落地的真实挑战(幻觉、死循环、安全)与解决方案。
2025-12-09 08:34:48
996
原创 混乱是阶梯:随机性与进化的本质
所以,不要惧怕混乱。在算法中,我们引入噪声(Noise)来防止过拟合;在进化中,基因通过突变(Mutation)来寻找新的出路。混乱不是阻碍,它是阶梯。它是系统打破平衡、跃迁至更高维度的唯一路径。
2025-12-04 15:00:07
270
原创 视觉标注:AI 进化的隐形引擎与“数据中心”革命
吴恩达(Andrew Ng)近年来一直在呼吁Data-Centric AI(以数据为中心的 AI)。他认为,现在的模型架构已经足够成熟,与其花几个月去微调模型参数提升 0.1% 的精度,不如花几天时间清洗和修正标注数据,往往能带来 10% 的提升。视觉标注,正在从一项劳动密集型工作,转变为一项知识密集型工作。未来的 AI 工程师,可能一半的时间不是在写代码,而是在设计“如何教机器看世界”的课程大纲(标注策略)。如果说代码是 AI 的骨架,那么标注数据就是 AI 的灵魂。
2025-12-02 11:22:05
1000
原创 深度解析 ImageNet 与李飞飞:当数据成为 AI 的眼睛
ImageNet 就像是 AI 历史上的一座灯塔。它结束了那个算法在黑暗中摸索的时代,开启了深度学习的黄金十年。有时候,改变世界的不是更复杂的公式,而是对基础数据的尊重和对人类认知的深刻理解。如果说 ImageNet 是教会了机器“睁眼看世界”,那么现在的空间智能和具身智能,就是在这个基础上,试图让机器“走入世界”。如果你也在关注从计算机视觉到具身智能的跨越,或者对李飞飞教授的理念有自己的理解,欢迎在评论区留言交流。让我们一起见证 AI 从“旁观者”变成“参与者”的时刻。
2025-12-02 11:14:57
673
原创 反向传播算法深度解析:从梯度消失到误差的逆向旅行
反向传播则是把“预测错了多少”这个误差信息,从最后一层邮局一层层往回传,告诉每一层邮局的工作人员:“你刚才的处理方式需要调整,调整幅度就是误差对你的影响程度。真正的收获不只是知道了链式法则,而是在脑子里形成了一张“误差流动图”:从输出层的损失,到每一层的梯度,再到权重更新的幅度。梯度大的权重,说明它对最终误差贡献大,需要大幅调整。从输出可以看到,随着训练进行,梯度范数逐渐减小(说明网络接近收敛),误差从输出层(delta2)传播到隐藏层(delta1)时会有衰减,这正是反向传播的直观体现。
2025-11-29 06:30:00
304
原创 反向传播算法:误差的逆向旅行
过去十年,深度学习从一个学术概念变成了工业界的标配工具。但很多开发者在使用 TensorFlow 或 PyTorch 训练模型时,只知道调用,却不知道误差信号是如何从输出层一层层倒流回输入层的。当网络不收敛、梯度消失、训练卡住时,只能盲目调参,却无法定位问题根源。反向传播算法,就是让神经网络"学会"的核心机制。它不是自动求导库的魔法,而是链式法则在计算图上的工程实现。理解它,你就能看懂为什么某些网络结构会失败,为什么某些激活函数更适合深层网络,为什么残差连接能让训练更稳定。
2025-11-28 09:00:00
696
原创 如何用 Python 构建“智能图注管理器”:让 Markdown 图片资产自动化、结构化、语义化
写技术文章写到一定体量,最大的痛点不是写,而是图片越来越多,命名越来越乱,图注不统一、章节跳号、上下文混乱……最后你自己都无法从文件堆里找到某张图。放在仓库里完全没法用。于是我做了一个脚本:它能自动扫描 Markdown、智能识别图片上下文、抽取关键词、生成图注、重命名图片文件,让整个写作工程具备**“规范又自动”**的感觉。这篇文章就带你把这个脚本的工程逻辑拆开,真正理解它是怎么实现“图资产智能化”的。
2025-11-27 11:01:21
378
原创 Kubernetes 可观测性落地纪实:从脏指标到自愈路径
这个场景听起来平常,却是很多团队每天都在经历的:指标说宕机,日志说正常,真实用户体验早已下降。所以我们给每个重要事件加了“上下文贴纸”:Namespace、Pod、节点、Git 提交、灰度批次,让人即使只看事件流也能猜到故事的发展。我们把 Grafana 仪表改成“事件条 + 指标折线 + 日志切片”联动视图,值班同学点一下事件条,就能在同一屏里看到当时的 CPU、延迟和关键日志。的解析过程,并按 Namespace + 原因聚合,同时给你一个“最可能要检查的指标列表”,方便值班同学秒级定位。
2025-11-27 09:00:00
338
原创 湖仓一体指标回放:从运营复盘到数据织布
这种痛点的根源是:湖仓一体没有真正落地,湖里的实时埋点与仓库的指标脱节,运营只能在 PPT 上猜想。解决方案不是“再建一个表”,而是把湖和仓的故事线连起来,让任何人都能回放任意时间段的指标。我们在仪表里增加“回放”按钮,一键把 12:00~13:00 的事件重放到临时表,帮助运营“看见”那一小时发生了什么。下列脚本把实时事件(JSON Lines)和交易事实表(CSV)接入 DuckDB,构建一个 10 分钟粒度的“回放指标”,并输出 GMV、转化率、热门渠道。列展示出视图到支付的比率,若为。
2025-11-27 07:00:00
360
原创 边缘 LLM 推理路径图:从工厂噪声到低延迟部署
某天凌晨,机器人突然停线,原因不是模型准确率,而是推理等待队列爆炸,延迟超过 1 秒,设备被判定超时。出口就像地铁换乘大厅,指示牌要极其清晰,否则乘客就乱跑。和“微批调度器”,它会等待 60ms 收集请求,形成批次后再调用模型,同时输出等待时间,帮助你验证在噪声网络下的调度策略。在扩展实验里,你能看到等待时间被限制在 60ms 左右,而推理耗时稳定,说明微批策略既保持了延迟上限,也提升了吞吐。,分别以“单请求”和“批处理”方式运行,记录延迟和输出,帮助你快速评估“延迟 vs 吞吐”取舍。
2025-11-26 10:20:24
400
原创 KVCache 在大模型推理中的作用:为什么它能让模型“越算越快”?
那天我在本地跑一个 7B 模型,连续生成几段代码。第一句输出还算平稳,第二句突然变快,第三句几乎是“刷刷刷”地蹦出来。我当时愣了一下——按常识来说,上下文越长,模型应该越慢,怎么反过来了?在工程群里问了一圈,答案都很一致:但这句话对大部分人来说更像一个黑箱。所以今天我们不从术语、不从公式开始,而是一起从“模型为什么会越算越快”这个真实的体验出发,把 KVCache 讲成你脑子里能长出结构、工程师能真正看懂的东西。
2025-11-26 08:00:00
1007
原创 大模型:从「语言能力」到「系统能力」的演化,你需要补上的那块认知拼图
理解模型的底层推理方式(空间推理,而不是知识检索)把模型融入业务流程,而不是拿来问问题在架构中明确“模型 vs 人 vs 工具”的分工如果你能做到这三件事,你会发现:你的迭代速度会快得惊人你的系统复杂度会被模型吸收你的个人生产力会被无限放大而这,就是大模型正在带来的真正革命。
2025-11-25 07:00:00
631
原创 卷积:它不是公式,它是模型看世界的方式
有时你可能会遇到这样的瞬间:模型在识别一张图片、分辨一段语音或提取特征时,总像是“突然就懂了”。而当你深入代码,发现那行看似无害的conv2d我第一次意识到卷积的重要性,是在调试一个简单的边缘检测 Demo。当时我还天真地以为卷积就是“滑一下、乘一下、加一下”。这一刻,我意识到卷积不是数学概念,而是一个思考方式。接下来,我想带你一起走一遍卷积“看世界”的方式,用类比、可视化、伪代码与 NumPy 实验,把它从抽象公式变成你能“感觉到”的东西。
2025-11-24 21:36:02
852
原创 PyTorch:写给每一个想真正吃透深度学习的人
很多人第一次写深度学习模型时都会经历同一个瞬间:代码能跑,但你根本不知道它「为什么能跑」。尤其在使用 PyTorch 的时候,你会觉得它既顺手又神秘——张量能随意在 GPU 上飞来飞去,自动求导像魔法一样,网络结构像乐高随便拼就是一个 SOTA baseline。但如果你想从“能跑”走向“理解”,你得真正知道 PyTorch 在做什么。今天这篇文章,我会带你一次性把 PyTorch 的核心原理、心智模型与可复现实操全部讲清楚。整个过程不堆概念、不摆公式,而是让你像拆一个发动机一样,看懂每一颗螺丝的意义。H
2025-11-24 21:04:34
818
原创 比较三大新范式:OpenAI Swarm / Claude Artifacts / LangGraph
来自 OpenAI 的开源/实验型框架,名为Swarm。其 github 页面指出:这是一个 “实验性的、教育用的”框架,用于构建多智能体协作系统。每个 Agent 有 instructions + functions;可以将对话或任务“移交”给另一个 Agent。Medium其定位并非“企业级全功能生产平台”,而更像 “学习 & 快速原型” 的入口。Composio。
2025-11-24 16:59:03
959
原创 R1、A2A、Self-Rewarding:2025 自进化大模型的技术断层正在形成
如果 A2A 是“自生成训练样本”,那么 Self-Rewarding 就是“自生成奖励信号”。它的核心思想是:奖励信号不是由人类或外部模型提供,而是由模型自身的结构、逻辑和知识体系推断出来。占位图:Self-Rewarding 奖励生成流程(Google 搜索:self rewarding llm diagram)① 自一致性(Self-Consistency)多次推理,取稳定一致的结果作为奖励。② 规则奖励(Rule-Based Reward)
2025-11-24 16:57:02
1021
原创 快速理解:对称加密、非对称加密
│ 客户端(浏览器) │。│ 明文数据 → AES 加密 → 密文 → 网络 → AES 解密 → 明文 │。│ 3. 客户端随机生成一个 AES 密钥(对称密钥)│ 客户端生成:AES_KEY(用来真正加速传大数据) │。│ 双方开始用 AES_KEY 对所有数据进行高速加密传输 │。│ 服务器(网站) │。│ 服务器(网站) │。
2025-11-21 11:25:28
702
原创 AES 加解密 IV 的意义
模式是否需要 IV是否安全是否泄露结构是否适合生产ECB❌ 不需要❌ 不安全✔ 会泄露结构❌ 禁用CBC✔ 需要✔ 安全❌ 不泄露结构✔ 推荐✔ 需要✔ 安全❌ 不泄露结构✔ 推荐所以:IV 不是用来解密的,是用来“隐藏模式”的。
2025-11-21 11:19:31
901
原创 RLHF → RLAIF → 自动偏好学习:大模型对齐技术的三次演化
无论是在企业项目中,还是在智能体(Agent)系统里,你都能感受到这种漂移:模型有时过度“自信”,有时过度“安全”,有时又出现幻觉,一旦进入复杂语境,行为更像是一块难以琢磨的黑石头。不是概念罗列,而是让你看懂“为什么演化”“怎么演化”“对你做的 AI 应用意味着什么”。真正让模型从“能说”到“说得对”“说得稳”“说得负责任”,靠的不是堆显卡,而是——偏好不再是“回答好不好”,而是“模型执行工具、检索、行动序列是否合理”。如果说 RLHF 是“人教模型”,RLAIF 是“强模型教弱模型”,
2025-11-20 07:00:00
451
原创 Context Engineering 精密上下文工程:从提示词到动态上下文管线
在适当的时间为模型提供适当的信息,并以结构化方式管理模型推理所需的全部信息环境的一套方法论。它包含以下内容:业务规则(规则层)历史对话(记忆层)系统设定(角色层)知识库(知识层)工具调用结果(工具层)用户输入(用户层)中间推理状态(链路层)搜索 / 数据库 / API 返回内容(外部信息层)执行轨迹(状态层)结果校验(审查层)如果你仔细看这些层,会发现它像极了现代操作系统的结构。这不是巧合。LLM 其实是“单线程 CPU + 巨大缓存 + 弱内存”,
2025-11-19 07:00:00
465
原创 长上下文技术的底层逻辑:Attention、压缩、缓存与跨页推理
如果把模型的参数视为“固化智能”,动态智能(Dynamic Intelligence)——模型不必依赖训练时的记忆,而是可以随时调用外部信息。这一点正在改变大模型的范式:Prompt 不再是输入,而是“操作系统事件”文档不再是知识,而是“模型的临时记忆”模型不再是一段神经网络,而是一个“具备阅读循环的推理引擎”当我们把上下文从 128K 拉到百万级,我们做的不是扩容,而是让模型第一次拥有阅读、回溯、定位、跨页分析的能力。这是一种新的智能。
2025-11-18 07:00:00
859
原创 Embedding 的本质:为什么你的知识库 RAG 不准?
RAG(检索增强生成)效果不佳的核心原因往往在于Embedding(向量编码)未能正确理解业务内容。Embedding的本质是将语义投影到特定结构的向量空间,而非真正理解文本。当模型训练数据分布与业务领域不匹配时,就会出现语义距离错乱,导致召回错误。优化RAG效果的关键在于:1)合理切分Chunk以保持语义完整;2)选择适配业务的Embedding模型;3)采用重排序等增强技术;4)构建父子向量结构处理长文档;5)进行术语扩展;6)使用混合检索方法。真正的挑战不是堆积文档,而是构建与业务对齐的语义空间。
2025-11-18 07:00:00
1798
原创 MCP(Model Context Protocol)如何把模型变成“操作系统插件”?
过去一年,越来越多开发者开始意识到一个奇怪现象:大模型越来越强,但却越来越“难接入”。一个模型能写代码、能规划流程、能分析文件,可当你真正把它用到项目里,却发现它像一个高智商但不懂规矩的外包工程师——什么都能干,却没有明确接口,不知道该什么时候读资源、什么时候调用工具、什么时候结束推理,更像是一个“悬浮在云端的智能体”。这种“不落地的问题”,几乎横在所有智能体应用之前。这一刻,智能体从“单点推理”开始走向“系统化协作”。
2025-11-17 14:22:27
654
原创 Agent Orchestration:为什么推理正在变成“连接问题”?
你能感觉到它“智能”,但一旦让它执行一个 10 步以上的流程,它就像掉线一样失去协调能力。当上下文滚雪球式变大,模型必须频繁在 10 万 token 的语境里跳来跳去,就像一个人不断翻聊天记录找信息,自然会变慢、变乱。如果你也在构建智能体、数字员工或多模型工作流,欢迎留言交流你的系统设计难题,也欢迎告诉我你希望下一篇写些什么。擅长“编排”,不擅长“持久化”。当连接被重建,智能才能真正从“点”变成“面”,从“演示级”变成“生产级”。如果你把 step1 换成调用大模型,就能得到一个真实的“智能体节点”。
2025-11-17 11:54:07
833
原创 推理成本优化:Speculative Decoding、Chunk Decoding 与混合推理
(开发者终于有办法让模型“跑得快、算得少、效果不掉”)过去一年,我们很少再讨论“模型怎么训练”,更多在谈“模型怎么跑得起”。算力预算不断压缩、应用端延迟要求不断提高、手机和边缘端又开始在容纳 20B~100B 模型,推理成为新的瓶颈。你可能也经历过:模型效果很好,但线上一跑,成本高得离谱;加点批处理可以省算力,但延迟又上不去;想上移动端,但生成速度慢得让用户想打人。这背后折叠出一个行业事实——
2025-11-17 11:25:15
1317
原创 MoE(混合专家)体系深拆:为什么 2 万亿参数只激活 3%?
如果 dense 模型的进化像“肌肉”,MoE 的进化更像“组织结构”。它让大模型第一次拥有了“无限扩张知识容量”的能力。Dense 模型的知识容量是线性的:想变强 → 堆更多参数 → 成本上升 → 迟早撞墙MoE 的容量是可水平扩展的:想变强 → 继续加专家 → 推理成本基本不变这不是性能优化,而是能力边界的重写。MoE 是让大模型摆脱“规模限制”的工程突破。它让 2 万亿参数并不难;让激活 3% 成为可能;让推理成本有机会下降;让大模型真正拥有“专业化协作能力”。
2025-11-17 09:19:12
1356
原创 原生全模态模型的架构演进:从单模态到统一表征的技术飞跃
过去几年,很多开发者都有同一个感受:大模型变强了,但我们似乎越来越看不懂它们。尤其是在多模态任务中,“为什么模型能同时理解图像、文字和语音?”、“不同模态之间的信息是怎么融合的?”、“这些能力靠堆算力还是靠结构创新?”——类似的问题在社区里反复出现。这种困惑不是偶然——多模态模型确实走到了一个分水岭,而的思路,更像是一场架构范式的重构。今天,我们不讲概念堆叠,也不贴大段代码,而是想把这条复杂技术演进路径,讲成你能“看懂、记住、讲得清”的一篇文章。
2025-11-17 07:00:00
990
原创 逆向工程与移动端加密通信的攻防思考
每一个试图解密密文的人,都在提醒我们:你永远不能完全信任客户端,也永远不能假设对方“只是好奇”。逆向工程和移动端加密通信,表面上是技术博弈,本质上是开发者与世界之间的“信任协商”。我们需要做的,不是构筑一堵不可摧毁的墙,而是建造一片让攻击者觉得“没有意义”的迷宫。当你理解了这一点,你就真正理解了移动端安全的底层逻辑。
2025-11-16 07:30:00
1379
原创 何必 DiT!字节用离散自回归打出反击:单卡一分钟生成 5 秒 720p
直到字节跳动商业化技术团队把 InfinityStar 送进 NeurIPS’25 Oral,我们才突然意识到,原来“扩散不是唯一的未来”这句话,不只是宣言,而是一套真正能跑通的系统。这套组合拳让 InfinityStar 生成的视频具备一种“电影式的连续性”,镜头不会乱跳、动作不会抖动、角色不会漂移,是目前离散自回归体系中最完整的时空建模方法。这种“外观与运动解耦”的策略,看似简单,却把原本极难统一处理的 T2I、T2V、I2V 任务拉到了同一个结构里,等于重新定义了视频生成的编排方式。
2025-11-15 08:00:00
718
原创 离散自回归模型 vs. 自回归模型:为什么大模型时代重新关心这对“老对手”?
离散自回归像符号,是抽象的、压缩的、高度结构化的。如果你的任务强调压缩、强调结构表达、强调速度、强调多模态融合、强调对表示空间的控制,那离散自回归模型(或离散瓶颈结构)可能就是被你忽视的宝藏。它们没那么火,但它们反复出现在那些对延迟敏感、对结构稳定性更高的系统中,比如语音编码、视频压缩、token 重参数化模型,甚至新一代多模态模型里的“中间离散瓶颈”。而我们要做的,不是二选一,而是理解它们何时各自闪光、为何彼此互补,以及在多模态、复杂系统和高效推理的时代,这两种逻辑如何共同构成新模型的骨架。
2025-11-15 06:00:00
1329
原创 多模态不再缝缝补补:文心 5.0 正在重写大模型的“世界观”
我饶有兴致的去搜了下文心5.0的相关“实力”,原来在 11 月 8 日的 LMArena 更新中,全新的 ERNIE-5.0-Preview-1022 排在文本榜全球并列第二的位置,在国内模型中排名第一,在创意写作、复杂长问题理解、指令遵循等维度都有较明显的优势,整体分数超过了多款国内外的主流模型。从这张“生成出来的合影”里,你能感觉到的是:文心 5.0 不只是会把“两个人 + 握手”拼在一起,而是对“这应该是什么场合、两个人应当呈现什么状态”有一套自己的判断。它画出来的不是一张静态姿势图,而是一种。
2025-11-14 20:57:21
1721
原创 为什么 AI 推理天然更偏向 ARM(而不是 x86)
它像一个能够在野外随时开唱的吉他手,不需要昂贵的设备,也不害怕长时间持续输出,只要你给它足够的能量,它就能稳定演奏到底。ARM 是那个底座,不靠市场营销,不靠路线图,而是因为它的节奏、能效、协作方式,与推理的需求一一重叠。未来的大模型将越来越像流体,而不是固体——它会在设备间流动、在个人与云之间流动、在本地与服务之间流动,这需要一种共同语言,而那语言不是 x86。但问题是:AI 推理不是钢琴曲。矩阵乘法的密集性、访存的确定性、执行路径的单调性,这些特点让推理更像是“稳定长跑”,而不是“短跑 + 障碍赛”。
2025-11-14 14:22:25
862
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅