OneFlow深度学习框架

不止于成为世界上最快的开源深度学习框架。https://github.com/Oneflow-Inc/oneflow

转载 Databricks“三级跳”：600 亿美元独角兽的战略跃迁

本文以 S 曲线理论为分析框架，深度解构 Databricks 的三次关键战略跃迁，还原了其技术商业化路径中的关键决策——如拒绝本地化部署的短期利益、与微软 Azure 的生态合作以及从开源社区到企业级服务的平衡艺术。Databricks 作为数据与 AI 领域的代表性企业，从开源项目 Spark 起步，逐步发展为估值超 600 亿美元的行业巨头，其成长历程不仅折射出大数据技术的演进史，更揭示了科技公司如何通过连续的战略跃迁实现指数级增长。当时的背景是：互联网的迅速发展催生了海量数据，尤其是非结构化数据。

2025-04-26 09:28:32 536

原创 AI 云服务之争：CoreWeave 向上，Nebius 向下

平台中的大多数工具均为自主研发，包括支持大规模调度的托管 Kubernetes、基于 Slurm 的集群调度系统、用于实验管理的 MLflow、自研的可观测性工具，以及一个具备安全保障的云端基础设施控制平台。它跳过了这一环节，设计了自己的服务器机架，以建立一个更加垂直整合的系统，从数据中心架构到托管式 Kubernetes 服务，再到像 Nebius AI Studio 这样的应用层工具（该工具为 DeepSeek、Llama 和 Flux 这样的开源模型提供推理 API）。的策略更全面和“全栈”。

2025-04-20 10:33:57 1070

转载关于 DeepSeek-R1 API 评测，至少有 7 个误区

xx 58.33%。以某评测者的“人类头发数量的乘积是多少？市面上基本不存在“非满血版 R1”，也基本不存在所谓模型“降智”，而 R1 蒸馏版（70B、1.5B等）与满血版的效果差距很明显，一般知名服务商都会注明，如果这些平台提供所谓“非满血版 R1”，很容易测试出来，这完全是自砸招牌，他们没有动机“以次充好”。可以确定的是，市面上知名的第三方平台部署的都是“满血版 R1（671B）”，之所以用户使用感受有差异，是因为模型输出的随机性、平台提供的配套功能及超参数设置等可能不一致，而非底层模型本身的差异。

2025-03-21 11:45:39 413

转载首发！硅基流动 x 华为云联合推出基于昇腾云的 DeepSeek R1 & V3 推理服务

DeepSeek-R1、DeepSeek-V3 开源后引发全球震动，它们是深度求索团队为全人类献上的一份大礼，我们由衷为他们取得的成功感到高兴。经过硅基流动和华为云团队连日攻坚，今天，我们也为国内用户献上春节礼物：大模型云服务平台 SiliconCloud 首发上线基于华为云昇腾云服务的 DeepSeek-V3、DeepSeek-R1。　需要特别强调的是，无论是在昇腾上适配 DeepSeek-R...

2025-02-01 17:53:28 2985

转载站在 AI 十字路口：直面智能体与机器人狂潮

生成式 AI 正在迅速介入人类世界。随着 AI 大模型不断进步，我们正面临着巨大的社会变革。本文探讨了一个由高度智能的智能体和机器人主导的世界——AI 亚特兰蒂斯世界（指在数字领域拥有几乎无限的 AI 资源）。本文分析了当前的 AI 模型为何从根本上不同于以往的技术范式，它们如何重塑各行业，以及人类面临的关键选择。作者认为，每个人都必须理解 AI 的进步将如何重塑经济、创造力和人类潜力的规则。除...

2025-01-27 10:05:04 275

转载迈向 AI 驱动型经济：当资本不需要打工人

AI 的迅猛发展与普及，引发了学术界与工业界对现在的社会结构与经济模型的根本性反思。此前 OneFlow 发布的《资本、AGI 与人类雄心》、《AGI 时代的智能诅咒》、《AGI 崛起之后：重构经济模式与社会结构》三篇文章，深入探讨了劳动力替代性 AI 改变人力与非人力生产要素的相对重要性后，给整个社会带来的好处与风险，以及应对挑战的解决方案。在本文中，借助一众经济学家和科幻作家的理论观点，Int...

2025-01-24 16:04:00 453

转载 AGI 崛起之后：重构经济模式与社会结构

AGI 日益临近，这也迫使我们重新审视现有的社会结构和经济模式。在《资本、AGI 与人类雄心》一文中，Rudolf 指出，AGI 到来之后，劳动力替代性 AI 将改变人力与非人力生产要素的相对重要性，这会降低社会对人类的关注度，同时使现有的权力更加有效和根深蒂固。基于资源诅咒现象，Luke Drago 在《AGI 时代的智能诅咒》一文中将 Rudolf 的上述核心观点描述为智能诅咒。他认为，智能诅...

2025-01-23 10:04:12 600

转载 AGI 时代的智能诅咒

经济学研究指出，依赖出售石油等自然资源获得收入而非公民税收的国家，会受到资源诅咒的影响，结果是权贵们攫取了大量财富，却停止了对普通人的投资。当 AGI 实现后，人类是否会面临类似的“智能诅咒”？在此前发布的《资本、AGI 与人类雄心》一文中，Rudolf 指出，AGI 到来之后，劳动力替代性 AI 将改变人力与非人力生产要素的相对重要性，这会降低社会对人类的关注度，同时使现有的权力更加有效和根深蒂...

2025-01-19 13:35:55 306

转载资本、AGI 与人类雄心

通用人工智能（AGI）正在不可阻挡地走向人类社会，有人期待它带来的巨大生产力突破，有人也在警告它可能成为洪水猛兽，也有人对它的发展只是持观望态度。不管怎样，基于你所了解的信息，你可以尝试描绘一幅 AGI 图景，并畅想它在人类政治、经济、社会发展会产生的影响。在本文中，作者 Rudolf 深入剖析了 AGI 到来之后的资本、人类劳动与社会权力结构之间的复杂关系。其核心观点是，劳动力替代性 AI 将改...

2025-01-15 14:21:27 376

转载 2025 年 AI 十大展望：软件市场扩大 10 倍、系统比模型更重要、OpenAI 先发优势消退...

尽管有 Scaling Law 放缓这样的疑虑，但整体而言，多数业内人士对AI过去一年的诸多进展感到兴奋，对新的一年 AI 的发展更是充满期待，尽管他们对未来的预测可能不尽相同。在本文中，Foundation Capital 合伙人Ashu Grag回顾了 2024 年 AI 发展的里程碑事件，并重点介绍了 2025 年的前景，主要包括：1.预训练局限将推动新的 AI 突破2.AI系...

2025-01-12 12:51:43 950

转载 900页免费“生成式AI与大模型”电子书｜OneFlow年货

难以想象，如果不是Scaling Law放缓，2024年AI领域会发生哪些惊人变化，但你可能又会感到庆幸，正是由于Scaling Law放缓，它给了这个行业的后来者们追赶的机会，也给了更多普通人搭乘这一轮技术革命的机会。AI领域的变化激荡人心。一年前，AI社区普遍认为，与OpenAI的模型相比，大部分模型与它有半年或一年的差距，但大模型预训练逐渐没有秘密，它的入局门槛数量级降低。令国内外科技界深感...

2025-01-01 09:51:07 349

原创 2024年AI盘点：投资高歌猛进、基础设施重构、技术采用加速

本文全面分析了今年AI 的发展，包含AI 技术栈的基础设施层、基础模型层、应用层、工具层，尤其是各个层面的主要收获、值得关注的趋势与值得关注的初创公司。此外，本文还概括了 AI 领域的投资和并购情况，以及其他AI 趋势。需要指出的是，可能限于作者KelvinMu的关注重心，本文除了对中国基础模型的介绍，没有更多关于中国 AI 其他技术栈的进展。不过，这并不妨碍本文仍是我们了解 2024...

2024-12-25 13:38:06 1335

原创从零实现极速LLM推理

作者 | Andrew Chen翻译｜张雪聃、刘乾裕OneFlow编译题图由SiliconCloud平台生成本文旨在从零开始，仅使用C++和CUDA构建一个大语言模型（LLM）推理引擎，且不借助其他外部库。为何要这样做？通过这种方式，我们能够全面了解LLM推理的整个技术栈——这一点正变得日益重要[1]——从CUDA kernel到模型架构，并且切实体会不同的优化方式如何影响推理速度。其中一个最为重...

2024-12-21 08:33:28 719

转载 AI数据中心历史、技术与关键企业

过去一年，通过模型架构创新、更优质训练数据和更大算力规模来训练模型，顶尖大模型之间的性能差距急剧缩小。如果Scaling law依然有效，为了进一步扩展模型规模与性能，在模型架构创新存在极大不确定性情况下，通过获得更多的算力来建造全新的数据中心，从而更快地训练模型以取得领先地位，这是确定性更高的收益。目前，以马斯克xAI为代表的大模型公司，快速部署了10万台GPU集群，成为数据中心扩展的领头羊，可...

2024-12-13 12:06:03 523

转载红杉资本2025年AI三大展望：大模型厂商各显神通；杀手级应用AI搜索；AI支出变稳...

2024年，随着Scaling law放缓，AI领域在大模型、基础设施上的能力稳步提升，尽管应用层出现了各种有趣的探索，但是更大的潜能有待挖掘。2025年即将来临，将出现哪些变化？近日，红杉资本投资人David Cahn对2024年AI领域的发展作了简要总结并对2025年作了三大预测。他认为，今年是AI发展的萌芽期，其构建基石已经稳固建立，只待2025年发芽结果。他在本文中阐述了三点预言：首次，基...

2024-12-12 09:35:25 690

原创 AI半导体技术、市场与未来

过去两年，英伟达崛起是科技领域的一个经典案例。通过CUDA系统，他们创建了一个使用GPU进行机器学习的开发者生态系统；通过Mellanox，他们成为了数据中心网络的领导者。然后，他们将所有硬件集成到服务器中，提供垂直集成的算力一体机。凭借这一系列组合性技术优势，英伟达在“AI淘金热”中提供的铲子占据行业核心地位，这导致它成为有史以来最成功的公司之一。随之而来的是，不少挑战者入局以求从英伟达主导的市...

2024-12-05 13:05:10 11524

原创比GPU快20倍？d-Matrix推理性价比分析

AI推理算力需求正在大幅增长。一方面，像硅基流动、Fireworks这样的AI基础设施软件公司通过软件层面的优化以提供高性价比的大模型推理服务，另一方面，以Cerebras、Groq为代表的芯片公司相继推出了专用AI推理芯片，通过硬件层面的创新，以数量级的推理速度与成本优势来挑战英伟达GPU的市场地位。AI推理芯片市场的竞争者还在增加。近日，成立于2019年的硅谷推理芯片创业公司d-Matrix的...

2024-12-04 08:03:47 1451

原创生成式AI推理技术、市场与未来

OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相继发布，预示着生成式AI研究正从预训练转向推理（Inference），以提升AI逻辑推理（reasoning）能力，这一转变将极大推动上层应用的发展。红杉资本近期指出，在可预见的未来，逻辑推理和推理时计算将是一个重要主题，并开启生成式AI的下一阶段。新一轮竞赛已然开始。那么，在推理这一新兴市场，...

2024-12-01 13:04:01 1556

原创 50张图，直观理解混合专家（MoE）大模型

Mixtral 8x7B的高效训练与推理效果曾引发AI社区对混合专家（MoE）模型的广泛关注，后来居上的国产开源大模型De‍epSeek以及腾讯近期开源的Hunyuan-Large（基于Transformer的最大MoE模型）也选择了MoE框架路线。为何大语言模型总是离不开MoE的身影？借助50多个图例，数据科学家Maarten Grootendorst由浅入深多维度剖析了MoE模型，从基础概念出...

2024-11-29 08:03:48 6667

原创 LLM后训练绝招：1%预训练成本，实现最高20倍算力扩展效果

根据规模定律，扩大训练计算规模可以提高大型语言模型（LLM）性能的关键，但调研机构Epoch AI的研究，LLM再训练无需高额费用，也能让AI能力获得显著提升。在该研究中，他们引入了一个基本框架，用于量化后训练增强的收益和成本，特别是通过计算等效增益来衡量收益。他们将该框架应用于一系列具有代表性的后训练增强，并发现性能提升非常显著，但微调成本通常与预训练成本相比非常小，某些后训练增强技术可以在不到...

2024-11-27 13:05:04 4197

原创 LLM逻辑推演策略选择：推理时计算 vs 训练时计算

AGI实现的一大标志是，具备人类级别的逻辑推理（reasoning）能力。近期，随着推理（inference）模型GPT o1、DeepSeek R1-Lite的发布，模型的逻辑推理能力得到显著提升，也预示着对LLM潜力的深度挖掘正在转向推理阶段。围绕增强LLM逻辑推理能力这一目标，美国人工智能与密码学研究实验室Bagel团队结合最新研究，从算术、常识和符号这三种主要逻辑推理类型出发，对比了在推理...

2024-11-22 10:04:14 3711 1

转载探索AI框架前沿｜OneFlow招聘深度学习研发工程师（实习）

一、岗位名称：深度学习研发工程师-框架开发方向（实习）岗位职责1. 参与 OneFlow 框架开发、重构与性能优化；2. 参与深度学习编译、高阶自动微分等深度学习框架相关技术演进工作。岗位要求1. 计算机或电子通信相关专业，本科及以上学历；2. 具备C/C++、Python编程基础，有良好的软件开发素养，熟悉TDD、CI/CD、敏捷开发流程等；3. 了解深度学习模型，有一定机器学习基础；4. 熟悉...

2024-11-22 10:04:14 343

原创企业生成式AI最新调查：AI支出激增6倍，多模型部署盛行

企业AI格局正在迅速重塑。随着实验项目逐步落地投入生产，海外风险投资机构‍Menlo Ventures最新发布的《2024年企业生成式AI现状》报告对600名企业IT决策者展开了调研，深入分析了这场变革中正在浮现的新赢家与失利者。（本文由OneFlow编译发布，转载请联系授权。原文：https://menlovc.com/2024-the-state-of-generative-ai-in-the...

2024-11-21 12:54:12 5280

原创强化学习之父Richard Sutton：AGI研究的下一个范式

OpenAI下一代GPT近期被爆遇到瓶颈，这让“Scaling Law撞墙”的声音变得更响，尽管业内对此争论不休，但现实情况是，大模型确实不再像年前那样有突飞猛进的进展。作为启发大模型领域提出Scaling Law的研究者，强化学习之父、阿尔伯塔大学教授Richard Sutton在2019年发表了后来被AI领域奉为经典的The Bitter lesson。在这篇文章中，他指出，AI研究在过去70...

2024-11-20 08:04:04 4640

原创 LLM长上下文RAG能力实测：GPT o1 vs Gemini

本文深入探讨了检索增强生成（RAG）技术在AI工作流中的应用，特别是OpenAI的o1系列模型和Google的Gemini 1.5模型在长上下文RAG任务中的性能，分析了不同模型在长上下文RAG任务中的失败模式，为开发者构建RAG系统提供了宝贵参考。（本文由OneFlow编译发布，转载请联系授权。原文：https://www.databricks.com/blog/long-context-rag...

2024-11-12 08:03:55 3994

原创推算LLM训练的GPU内存需求

本文将分析大语言模型训练的GPU内存需求，主要包括三个方面：训练数十亿参数基于Transformer的LLM时，每个GPU设备需要多少GPU内存；估算内存需求的公式是什么；如果模型无法匹配内存，在实践中应采取哪些措施来减少内存需求。（本文由OneFlow编译发布，转载请联系授权。原文：https://medium.com/@maxshapp/understanding-and-estimating...

2024-11-08 08:03:16 4226

原创 70B大模型训练秘方③：1000次超参数优化实验的发现

今年6月，大模型公司Imbue依托它们自主构建的基础设施，从零起步，成功训练出一个70B参数的模型，其在相关推理任务上的卓越表现远零样本GPT-4o。在《70B大模型训练秘方① ：数据集创建与评估》一文中，他们分享了用于模型评估的数据集，包含11个公共数据集的高质量子集，以及一套用于代码理解的原始问题。重点分享了为什么选择这些特定的数据集，以及数据创建过程和实际数据集的详细信息。在《从裸机到70B...

2024-11-05 08:04:32 3141

原创从通才到专家：AI系统向复合AI的演变

复合AI系统凭借其多模型、多工具的协同方式，展现出传统单一AI难以匹敌的应对复杂问题的能力，引发了广泛关注和讨论。本文从单体架构和微服务架构的演变切入，揭示了复合AI系统如何通过模块化的方式优化任务执行，提升灵活性与精准度。以Databricks Mosaic AI平台为例，作者Yared Gudeta分析了复合AI在维护系统中的应用实例，展示了该系统如何整合向量嵌入、图数据库和大语言模型以高效解...

2024-11-01 13:03:47 4330

原创用初中数学理解LLM工作原理

本文将从基础开始讨论大语言模型（LLM）的工作原理——假设你只知道如何对两个数字进行加法和乘法。首先，作者Rohit Patel会从构建一个简单的生成式人工智能出发，逐步阐释理解现代LLM和Transformer架构所需的所有知识。本文将剔除机器学习中所有花哨语言和术语，将一切简单地表示为数字。（本文作者Rohit Patel是Meta的数据科学家。本文由OneFlow编译发布，转载请联系授权。原...

2024-10-30 08:04:04 9389 3

原创 10个改变日常的大模型隐藏玩法

大模型可以写代码、做客服、帮忙写文章，但这些不过是冰山一角，大模型还有哪些不为人知但实用的用途？最近，关于大模型的隐藏技能在Reddit上引发热议，各种有趣的“武林秘籍”层出不穷。以下是部分大模型玩家眼中被低估的用途：1. 我手头大约有80盘VHS家庭录像带，于是把它们全部转换成了数字格式。然后，我将每段1-4小时的视频通过Whi...

2024-10-26 10:33:45 5630

原创生成式AI的新战场：逻辑推断与推理计算

自生成式AI革命开启以来，研究正推动该领域从"快速思考（即迅速给出预训练的回应）"，向“缓慢思考（即在推理[inference]过程中进行逻辑推理[reasonging]）”转变。这一转变正在开启一系列全新的智能应用。生成式AI市场的基础层正趋于稳定，处于一种由一批关键的大型企业及企业联盟构成的均衡状态，其中包括Microsoft/OpenAI、AWS/Anthropic、Meta以及Google...

2024-10-25 09:33:54 4719

原创 LLM量化效果评估：50万次实测后的发现

尽管量化已成为大模型性能优化的常规技术手段，但由于很难评估模型量化的实际效果，依然有人质疑量化模型的准确度与生成质量。对此，基于Llama 3.1系列模型，AI模型优化与加速推理服务商Neural Magic进行了超五十万次的实测，以对比模型量化与原始模型的效果。以下是他们评估后中的要点：1.设计了一套覆盖广泛推理场景的评估体系，确保从结构化任务到实际应用的全面分析，包括学术基准测试、真实场景基准...

2024-10-24 08:03:19 3447

原创 AI不是另一场“互联网泡沫”

此前，OneFlow发布的《2美元/小时出租H100：GPU泡沫破灭前夜》一文在业内引发强烈反响。不管怎样，当前GPU价格下跌是一个事实，然而这并非唱衰整个AI行业，恰恰相反，更多企业与个人开发者会因此获得更便宜的关键算力资源，同时，随着AI推理与微调需求的增长，这对促进AI应用市场的爆发具有正向作用。更进一步来看，即使存在GPU泡沫，是不是也意味着AI也是一场巨大的泡沫？基于200多页的Stat...

2024-10-22 09:33:22 882

原创最大的顶级数据集开源，HuggingFace排名第一，可创建15万亿Token

去年 12 月，生成式 AI 公司 Petuum 以及穆罕默德·本·扎耶德人工智能大学（MBZUAI）共同推出了一个用于创建开源大型语言模型的项目LLM360，旨在提高开源代码的透明度，公开整个 LLM 训练过程、代码、数据和最佳实践，以帮助开发人员更轻松、更快捷、更经济地创建开源大型语言模型，实现...

2024-10-19 12:05:37 4287

原创 10倍工程师的高效编码工具：Cursor x SiliconCloud x DeepSeek v2.5

Cursor 是一个基于 VSCode 开发的 AI 代码编辑器，提供强大的 AI 代码编辑能力。本文介绍如何利用 Cursor 的自定义模型功能，在 Cursor 中使用硅基流动 SiliconCloud 的 API，接入DeepSeek v2.5、Qwen2.5等大模型，通过高效、价格亲民的 API 服务，数量级提升你的编码能力。本文还讨论了 Cursor 免费版的常见限制以及对应的...

2024-10-18 08:03:14 5847

原创 NotebookLM爆火背后：AI原生产品的核心洞察与创新

Perplexity、Cursor爆火之后，NotebookLM成为又一款备受欢迎的AI原生产品。NotebookLM是Google实验室（GoogleLabs）在2023年5月推出的一款原生AI笔记管理工具，能帮助用户高效地组织和提取信息，其前身是Google的Project...

2024-10-16 08:03:51 2699

转载分享ComfyUI BizyAir工作流，赢5000元机票补贴

凭着小步快跑的节奏，ComfyUI 云节点 BizyAir 已越发强大：集成了 FLUX.1、StableDiffusion、Kolors 等强大模型，支持自定义 LoRA 模型，还有 SiliconCloud LLM 的 AI 提示优化功能，助力你的创作。近期，BizyAir 还新增了模型上传共享功能，相信熟练掌握了 BizyAir 的你，现在一定强得可怕 :D所以，是时候给社区分享你的创作成果...

2024-10-16 08:03:51 398

原创 2美元/小时出租H100：GPU泡沫破灭前夜

红杉资本的报告曾指出，AI产业的年产值超过6000亿美元，才够支付数据中心、加速GPU卡等AI基础设施费用。而现在一种普遍说法认为，基础模型训练的资本支出是“历史上贬值最快的资产”，但关于GPU基础设施支出的判定仍未出炉，GPU土豪战争仍在进行。尤其是，以OpenAI为代表的大模型公司在训练+推理上的支出超过了收入，最近他们在有史以来最大的风险投资轮中筹集了66亿美元，同时预计2026年的亏损将达...

2024-10-13 08:03:41 6259 1

原创 AI工程师指南：我是谁，从哪来，到哪去？

生成AI 正在以前所未有的速度重塑各行各业，而站在这场变革最前沿的莫过于 AI 工程师们。在「十字路口」的最近一期播客中，主播Koji（新世相创始人）与Ronghui（科技VC）两位邀请了两位 AI 领域的杰出人物硅基流动创始人&CEO 袁进辉与独立开发者 idoubi分享他们对 AI 工程师这个职业的独到见解。从底层技术到应用开发，从...

2024-10-12 08:04:01 951

原创再谈LLM逻辑推理的三大谬误

在此前的文章《LLM逻辑推理的枷锁与破局策略》，作者Alejandro Piad Morffis论述了为什么大语言模型不具备推理（reasoning）能力，并在X上引发强烈争论（https://x.com/alepiad/status/1837154075093225594）。针对这一主题，他再次写了一篇文章来驳斥关于LLM推理的三大误解。他认为，LLM在许多情况下所做的事情只是类似于推理，但并不...

2024-10-11 08:03:35 2936

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

OneFlow深度学习框架

博客等级

码龄5年

企业官方账号

382
原创

2876
点赞

4170
收藏

5854
粉丝

关注

私信

热门文章

分类专栏

最新评论

用初中数学理解LLM工作原理
Dongwoo Jeong: 我对中国的初中生感到威胁，因为我拥有韩国的“物理学硕士”学位。这很容易理解。不过，我想总结一下这篇文章的一些小遗憾：在开始之前，如果有一个关于LLM组件的简单概述，会更容易理解。对于初学者来说，应该先有概述再介绍，但一开始就直接介绍，让我很难知道自己正在学习LLM的哪一部分。 1. 归一化位置（Norm）在神经网络训练中，归一化用于提高稳定性和性能。 GPT主要使用预归一化结构（在激活函数之前应用归一化）。归一化分为后向和前向归一化。 2. 激活函数（Activation Function）激活函数为神经网络引入非线性，帮助学习模式（ReLU是典型代表）。 GPT使用GELU，它比ReLU具有更平滑的过渡模式。 3. 位置编码（Positional Encoding） Transformer模型与循环神经网络（RNN）不同，无法直接处理顺序信息，因此通过位置编码传递位置信息。 GPT最近使用RoPE（旋转位置编码）作为相对位置编码。 4. 注意力机制（Attention Mechanism）注意力机制从输入文本中提取重要部分的信息。 GPT使用带有因果掩码的自注意力机制（Causal Masking）。 5. 混合专家模型（MoE）混合专家模型通过创建多个“专家”抽象层，输入令牌由路由网络选择并传递给特定层。主流架构包括：仅编码器（Encoder-only，如BERT）仅解码器（Decoder-only，如GPT系列）编码器-解码器（Encoder-Decoder，如T5）如果有这样的概述就更好了。非常感谢您用非常易懂的方式解释了原理。
用初中数学理解LLM工作原理
云淡风轻2.0: 这文章就是用ai写的，你能看懂才怪了
用初中数学理解LLM工作原理
西格玛man: 为什么我看不懂中文，作者能再润色一下语言吗，太复杂了
Cerebras：挑战英伟达，全球最快AI推理芯片的“魔法”
uttyuiuoi: 一个实验产品和人家量产的对比
开源AI背后的商业密码
深圳王哥: 这篇文章真是干货满满，作者对技术细节的把握和解析非常到位，让我对这个主题有了更深入的理解。期待作者能分享更多这样的高质量内容！

提示

确定要删除当前文章？

取消删除