OneFlow深度学习框架

不止于成为世界上最快的开源深度学习框架。https://github.com/Oneflow-Inc/oneflow

  • 博客(432)
  • 收藏
  • 关注

原创 揭示语言大模型的采样过程

机器学习模型具有概率性。对于同一个问题,机器可能会给出不同回答,以“世界上最棒的美食是什么?”这一问题为例。假如我们间隔一分钟,对同一个人提问,这个人两次给出的回答应该是相同的;但如果我们分两次问模型同样的问题,它给出的答案可能会发生变化。如果模型认为越南菜最好吃的概率为70%,意大利菜最好吃的概率为30%,那么相应的,模型会有70...

2024-03-15 08:36:17 4880

原创 好久不见!OneFlow 1.0全新版本上线

好久不见。今天是 OneFlow 开源的第 1320天。与 OneFlow 框架的创作者们一样,过去一年,它也经历了过山车般的命运。好在,即使在下坡潜伏期依然被社区用户关注和使用,作为它的创作者,我们为此感到欣慰——这也是它还在更迭的价值和意义所在。终于,OneFlow 迎来了一个新的里程碑。距离上一次版本发布一年后,我们很高兴发布全新的 OneFlow v1.0.0 版本。本次更新共 447 ...

2024-03-12 09:49:01 4274

原创 有奖征集|与OneDiff加速前行,GenAI探索触手可及

生成式AI的发展不仅在改变我们的生活方式,也在重塑我们的工作模式。然而,GenAI的推理成本依然是阻碍应用创新的重大挑战。为此,针对图片/视频生成应用,硅基流动推出了专用推理加速引擎OneDiff。自开源版发布以来,OneDiff长期保持着业内领先的性能加速优势,大大降低了模型应用成本,并赢得了众多应用开发者和企业客户的青睐。现在,硅基流动正发起OneDiff应用案例征集活动,无论你是企业客户还是...

2024-03-07 08:58:57 755

原创 混合输入矩阵乘法的性能优化

AI驱动的技术正逐渐融入人们日常生活的各个角落,有望提高人们获取知识的能力,并提升整体生产效率。语言大模型(LLM)正是这些应用的核心。LLM对内存的需求很高,通常需要专用的硬件加速器,以高效地提供数百亿亿次浮点运算(Exaflops级别)的计算能力。本文将展示如何通过更有效地利用内存来解决计算方面的挑战。LLM中的大部分内存和...

2024-03-06 08:03:19 3756

原创 OpenAI的组织形态、决策机制与产品构建

与ChatGPT面世后的疑惑类似,视频生成大模型Sora发布之后,人们依然在问同样的问题:为什么OpenAI能做出这样的创新成果?要知道,世界上不乏人才密集、有钱、有数据的公司,但能持续做出划时代产品的团队寥寥无几。可以肯定的是,除了OpenAI团队中关键少数的技术远见,这些重量级产品的实现与他们的组织运作密不可分。那么,这些人到底是如何被组织起来的,他们有什么样的组织形态和文化?在Lenny R...

2024-03-01 08:49:24 3918

原创 LLM推理入门指南①:文本生成的初始化与解码阶段

随着生成式AI的火热发展,高企的语言大模型(LLM)推理性能和成本成为阻碍其大规模应用的关键挑战。LLM推理是指使用仅解码器Transformer模型生成词元,而大多数挑战及其相关的解决方法都来自这种特定的架构和用例。本系列文章将深入探讨LLM推理的不同层面及其挑战,同时,其中提供的有价值见解也适用于Transformer编码器模型的推理。通过本系列内容的学习,希望帮助读者了解与LLM推理密切相关...

2024-02-23 08:59:10 3902

原创 GenAI的“关键一跃”:推理与知识

当前的人工智能领域正通过生成式人工智能(GenAI)经历一场重大转变。这一转变不仅代表了技术上的飞跃,更标志着人工智能领域的范式转变,引发了有关GenAI的独特特性及其深远影响的关键问题讨论。植根于计算革命的丰富历史,本文从计算复杂性角度出发,探索推理和知识的本质,将历史性成就与最新的进展巧妙地交织在一起,以丰富我们对人工智能的理解。(本文作者为吕坚平博士。以下内容经授权后由OneFlow编译发布...

2024-02-18 09:05:33 4458

原创 从头理解与编码LLM的自注意力机制

本文将介绍Transformer架构和GPT-4、LLaMA等语言大模型中使用的自注意力机制。自注意力和相关机制是LLM的核心组件,使用LLM时,了解这些机制十分有必要。本文还提供了使用Python和PyTorch从零开始编码自注意力机制的详细指南,并演示其工作方式,帮助初学者和经验丰富的从业者深入理解它在LLM中的作用。本文作者是机器学习和人工智能研究员Sebastian Raschka,目前担...

2024-02-08 08:04:35 3925

原创 语言大模型的浮点运算分配

本文通过实证分析展示了实际LLM模型的FLOPS分配情况,并与理论分析进行对比。通过理论和实证相结合的方式,本文为理解和优化语言大模型的性能提供了有益见解。作者Finbarr Timbers是一名机器学习研究员,曾就职于DeepMind。(以下内容由OneFlow编译发布,转载请联系授权。原文:https://www.artfintel.com/p/where-do-llms-spend-thei...

2024-02-04 13:00:00 3519

原创 语言大模型推理加速指南

本文是一篇关于加快语言大模型推理速度的综合指南。从硬件优化到各种解码技巧,文章介绍了各种优化策略,旨在帮助读者更好地理解和优化LLM的性能。相信不论是这一领域的初学者或是专家,都能从中有所收获。本文作者为工程师和计算语言学家Theia。(以下内容由OneFlow编译发布,转载请联系授权。原文:https://vgel.me/posts/faster-inference/)作者 |TheiaOne...

2024-01-31 09:31:16 4753 1

原创 Mistral AI:探索LLM推理的吞吐、时延及成本空间

选择正确的LLM推理栈意味着选择适合你的任务的正确模型,并配以适当的推理代码在适当的硬件上运行。本文介绍了流行的LLM推理堆栈和设置,详细说明其推理的成本构成;并讨论当前的开源模型以及如何充分利用它们,同时还涉及当前开源服务栈中仍然缺失的功能,以及未来模型将解锁的新功能。本文源自MistralAI首席技术官Timothée Lacroix的演讲。他于2015年在Facebook AI Resea...

2024-01-24 09:18:25 4897 3

原创 大模型的规模扩展是否可持续?

GI何时会到来?如果我们能不断扩展LLMs++的规模(并因此取得更好和更通用的性能),就有理由期望到2040年(或更早)出现强人工智能,它能够自动化大部分认知劳动并加速人工智能研究。然而,如果扩展(scaling)不起作用,那么实现AGI的道路则会变得更加漫长、棘手。为全面探讨有关扩展的正反观点,我构造了两个虚构角色(正...

2024-01-17 09:05:35 5005 1

原创 硅基流动完成5000万元天使轮融资

北京硅动科技有限公司(以下简称“硅基流动”)于近日完成5000万元天使轮融资。本轮融资由创新工场领投,耀途资本、奇绩创坛以及王慧文等科技界知名人士跟投,华兴资本担任独家财务顾问。随着ChatGPT的爆火,生成式AI快速发展,全球算力需求随之爆发式增长,由此导致算力供给严重不足。高昂的算力成本和应用开发门槛成为生成式AI发展的主要瓶颈。成立于2023年8月的硅基流动致力于打造大模型时代的AI基础设施...

2024-01-10 18:47:19 9718

原创 OneFlow技术年货:800+页免费“大模型”电子书

2023年,无论对人工智能领域还是整个科技界而言,“ChatGPT”无疑是本年度第一关键词。这一年,在OneFlow社区发布的100多篇文章里,涉及大量与ChatGPT相关的大模型类技术解读、前瞻性观点以及开源故事,另有部分与深度学习框架相关的内容。在内容快餐化时代,这些文章或许很长,但对于渴望深度了解前沿技术的人不可或缺。很高兴不断有新用户通过这些优质内容加入OneFlow社区,并给予我们鼓励和...

2024-01-01 09:31:26 4894

原创 20篇NeurIPS论文精选:语言大模型的六大趋势

本文总结了NeurIPS 2023大会上与自然语言处理相关的20篇精彩论文。通过这些论文,作者主要观察到了LLM的六个主要趋势,这些论文涉及重新思考LLM的基本假设,并为其内在运作提供了新的见解和观点。本文作者Sebastian Ruder是Google Research研究员,发表了多篇机器学习和自然语言处理领域的顶级论文。(以下内容由OneFlow编译发布,转载请联系授权。原文:https:/...

2023-12-27 09:49:14 5828

原创 ChatGPT一周年:开源语言大模型的冲击

自2022年末发布后,ChatGPT给人工智能的研究和商业领域带来了巨大变革。通过有监督微调和人类反馈的强化学习,模型可以回答人类问题,并在广泛的任务范围内遵循指令。在获得这一成功之后,人们对LLM的兴趣不断增加,新的LLM在学术界和工业界不断涌现,其中包括许多专注于LLM的初创公司。尽管闭源LLM(如OpenAI的GPT、Anthropic的Claude)通常优于其对应的开源模型,但后者的进展十...

2023-12-20 09:52:55 11843

原创 迈向100倍加速:全栈Transformer推理优化

假设有两家公司,它们拥有同样强大的模型。公司A可以用1个GPU为10个用户提供模型,而公司B可以用1个GPU为20个用户提供模型。从长远来看,谁会在竞争中获胜呢?答案是公司B,因为它的成本更低。假设一位研究人员提出了一种超级聪明的解码方法:这种方法拥有巧妙的算法和扎实的数学基础,但无法与FlashAttention兼容。它能在生产...

2023-12-13 13:45:40 6165

原创 语言大模型的推理技巧

本文探讨了一系列语言大模型的推理优化技巧,涵盖KV缓存、量化和稀疏性等方法,并分享了如何有效实施这些技术。对于想要优化Transformer模型,以期提升推理速度或效率的人来说值得一读。本文作者为机器学习研究员Finbarr Timbers,他曾是DeepMind的工程师。(本文由OneFlow编译发布,转载请联系授权。原文:https://www.artfintel.com/p/transfor...

2023-12-12 09:09:03 5005

原创 LoRA微调语言大模型的实用技巧

目前,微调定制化LLM会耗费工程师的大量时间和精力,而选择合适的微调方法以及掌握相关技巧可以做到事半功倍。此前,在《微调语言大模型选LoRA还是全参数?基于LLaMA 2深度分析》中,文中对比了全参数微调和LoRA各自的优势和劣势。而在《LoRA和QLoRA微调语言大模型:数百次实验后的见解》中,本文作者讨论了使用LoRA和QLoRA对LLM进行微调的实用见解。在本文中,作者进一步分享了使用LoR...

2023-12-08 08:04:01 4024

原创 机器学习硬件十年:性能变迁与趋势

本文分析了机器学习硬件性能的最新趋势,重点关注不同GPU和加速器的计算性能、内存、互连带宽、性价比和能效等指标。这篇分析旨在提供关于ML硬件能力及其瓶颈的全面视图。本文作者来自调研机构Epoch,致力于研究AI发展轨迹与治理的关键问题和趋势。(本文由OneFlow编译发布,转载请联系授权。原文:https://epochai.org/blog/trends-in-machine-learning-...

2023-12-05 08:04:02 9257

原创 语言大模型的分布式训练与高效微调指南

最近语言大模型(LLM)异常火爆,一个非常特别的开源社区正在探索在消费级硬件上微调、提供服务和进行推理的最佳方式。为满足上述需求,出现了许多出色的开源代码库,以HuggingFace生态系统为中心,这些代码库还包括FastChat、Axolotl和LLama.cpp。本文专注于分布式训练策略的具体细节,特别是DeepSpe...

2023-11-29 09:28:25 5218

原创 ChatGPT规模化服务的经验与教训

2022年11月30日,OpenAI发布ChatGPT,以很多人未曾预料的速度迅速走红。与此同时,由于短时间内用户量的暴涨,导致服务器过载,迫使OpenAI停止新用户的注册。ChatGPT发布这一年,同样的情景发生了好几次。在最近的OpenAI开发日之后,使用量再度激增,随后OpenAI宣布暂停新用户使用其付费服务。这背后体现了大模型提供规模化服务时运维的重要性。Evan Morikawa是Ope...

2023-11-21 10:02:07 4431

原创 可复现的语言大模型推理性能指标

LLMPerf是一个开源项目,旨在帮助用户对语言模型进行基准测试,并使其性能具有可复现性。它能够帮助用户评估不同LLM的性能,并根据具体任务做出明智的决策。该项目选择了多个指标来衡量LLM的性能,包括吞吐量、时延、内存使用和成本等。本文介绍了如何使用LLMPerf进行基准测试,并提供了一些实用的技巧和建议。此外,本文还对当前最流行的LLM进行了基准测试,并提供了详细的结果和分析。需要说明的是,LL...

2023-11-17 08:51:58 3360 1

原创 开源语言大模型演进史:向LLaMA 2看齐

本文是开源 LLM 发展史系列文章的第三部分。此前,第一部分《开源语言大模型演进史:早期革新》回顾了创建开源 LLM 的最初尝试。第二部分《开源语言大模型演进史:高质量基础模型竞赛》研究了目前可用的最受欢迎的开源基础模型(即已进行预训练但尚未微调或对齐的语言模型)。本文将介绍如何通过微调/对齐那些更出色的LLaMA-2等开源模型来提升它们的效果,并缩小开源和私有LLM之间的差距。(本文作者为Reb...

2023-11-10 08:03:23 3846

原创 微调语言大模型选LoRA还是全参数?基于LLaMA 2深度分析

本文对比了全参数微调和LoRA,并分析了这两种技术各自的优势和劣势。作者使用了三个真实用例来训练LLaMA 2模型,这提供了比较特定任务的性能、硬件要求和训练成本的基准。本文证明了使用LoRA需要在serving效率和模型质量之间做出权衡,而这取决于具体的任务。此外,本文还提供了关于如何通过智能提示技术来稳定LoRA训练的深入见解,并进一步验证了采用较低的学习率可以增强最终模型检查点的可靠性。实验...

2023-11-08 08:03:28 4902

原创 开源语言大模型演进史:高质量基础模型竞赛

本文是开源 LLM 发展史系列文章的第二部分。第一部分《开源语言大模型演进史:早期革新》回顾了创建开源 LLM 的最初尝试。本文将研究目前可用的最受欢迎的开源基础模型(即已进行预训练但尚未微调或对齐的语言模型)。(本文作者为Rebuy公司AI总监、深度学习博士Cameron R. Wolfe。以下内容经授权后由OneFlow编译发布,转载请联系授权。原文:https://cameronrwolfe...

2023-11-03 09:49:34 2512

原创 为什么开源语言大模型很重要?

在LLM领域,开源究竟意味着什么?假设开源社区拥有了真正的开源LLM,其权重、数据集、代码和基础设施都可公开获取,我们又将从中获得哪些重要收益?本文作者为Vikram Sreekanti和Joseph E. Gonzalez,前者是Aqueduct的联合创始人及CEO,后者是加州大学伯克利分校的教授和Run LLM联合创始人,他们就开源的重要性与核心价值进行了探讨。

2023-11-02 08:03:50 10343 7

原创 GPU架构与计算入门指南

大多数工程师对CPU和顺序编程都十分熟悉,这是因为自从他们开始编写CPU代码以来,就与之密切接触。然而,对于GPU的内部工作原理及其独特之处,他们的了解则相对较少。过去十年,由于GPU在深度学习中得到广泛应用而变得极为重要。因此,每位软件工程师都有必要了解其基本工作原理。本文旨在为读者提供这方面的背景知识。本文作者为软件工程师Abhinav Upadhyay,他在《大规模并行处理器编程》第四版(H...

2023-11-01 09:31:14 4800

原创 LoRA和QLoRA微调语言大模型:数百次实验后的见解

LoRA是用于训练自定义LLM的高效参数微调技术。本文作者Sebastian Raschka通过成百上千次实验,他为使用LoRA和QLoRA对LLM进行微调提供了实用见解,包括节省内存、选择最佳配置等。Sebastia是威斯康星大学麦迪逊分校的统计学助理教授,也是人工智能平台Lightning AI的LLM研究员。(本文由OneFlow编译发布,转载请联系授权。原文:https://lightn...

2023-10-27 09:16:22 4325

原创 语言大模型推理性能工程:最佳实践

在这篇文章中,MosaicML工程师团队分享了如何在生产环境中充分利用流行开源语言大模型(LLM)的最佳实践。此外,他们还提供了围绕模型部署推理服务的指南,以帮助用户更好地选择模型和部署硬件。他们在生产环境中使用了多个基于PyTorch的后端。这些指南是MosaicML工程师团队基于FasterTransformers、vLLM以及NVIDIA的TensorRT-LLM等背后的经验总结而来。Mos...

2023-10-25 09:45:37 3080

原创 全面对比GPT-3.5与LLaMA 2微调

通用大模型虽好,但通过微调得到一个专属大模型不仅可以提高模型的可操控性、输出格式的可靠性和语气的一致性,还能让用户缩短提示长度,加速API调用,降低成本。本文作者Sam L'Huillier对GPT-3.5与LLaMA 2的微调进行了基准测试,以验证手动微调的模型能否以较低的成本接近GPT-3.5的性能水平,从而帮助用户在各类任务中选择最佳微调模型。本文作者是微调实践者Sam L'Huillier...

2023-10-19 08:03:18 3561

原创 开源语言大模型演进史:早期革新

尽管业内最初强调专有模型,但随着GPT-3等流行语言模型的发布,LLM研究社区开始发布相关开源变体。最早的开源语言模型在性能上落后于最佳的专有模型,不过,它们为提升LLM的研究透明度奠定了基础,并促进了后续LLaMA-2等强大模型的开发。本系列内容分为三部分,主要探讨开源语言大模型的发展历史。本文是该系列文章的第一篇,本文作者将探讨开源LLM历史的起始阶段,它们对于我们理解开源LLM革命至关重要,...

2023-10-18 10:22:23 2210 1

原创 OpenAI的规模化经济效益与第二护城河

尽管业内相继开源了不少表现出色的语言大模型,但相对OpenAI的闭源模型的高昂部署成本,让大多数想使用开源LLM模型的组织往往望而却步。OpenAI在成本方面的优势,一方面来自规模效应,另一方面来自其基础设施方面的深厚积累。开源LLM提供商要取得成功,必须在这两方面追上甚至超越OpenAI。此外,作者认为,开源LLM还需要不断改进,降低应用复杂性,并发挥在定制需求方面的优势。本文作者Vikram ...

2023-10-17 09:42:47 2781

原创 为什么多数情况下GPT-3.5比LLaMA 2更便宜?

本文旨在为用户选择合适的开源或闭源语言模型提供指导,以便在不同任务需求下获得更高的性价比。通过测试比较 LLaMA-2 和 GPT-3.5 的成本和时延,本文作者分别计算了二者的 1000 词元成本,证明在大多数情况下,选择 GPT-3.5 的成本更低、速度更快。基于上述评估维度,作者特别指出,LLaMA-2 等开源模型更适合以提示为主的任务,而 GPT-3.5 等闭源模型更适合以生成为主的任务。...

2023-10-14 08:03:30 3686

原创 开源语言大模型的正确姿势

如今,很多公司都被迫加快步伐,参与到开源语言大模型(LLM)的竞争之中。发布某种形式的开源语言大模型已成为机器学习公司实力的象征。最近,Mistral AI 完成资金筹集,发布了一款拥有 70 亿参数的强大语言模型。尽管更多人参与到开源机器学习生态系统中是有益的,也被很多人视为一个重要的发展趋势,但现在我们需要转变视角,推动...

2023-10-12 08:04:38 3151

原创 LLVM之父Chris Lattner:我的AI基础设施软件构建理念

如果 AI 如此重要,那么为什么软件如此糟糕?创办 Modular 之前,这是让LLVM 之父 Chris Lattner 困扰已久的问题。随后,他与 TensorFlow 的前产品同事 Tim Davis 合作研究模块化解决方案,以解决人工智能开发中庞大、单一、分散的平台问题。2022 年,他们以 3000 万美元的种子资金...

2023-10-05 09:34:39 2120

原创 为什么开源大模型终将胜出?

自ChatGPT面世以来,以它为代表的闭源 AI 备受关注,简单易用的特性使其占据了行业主导。尽管以LLaMA 为代表的开源 AI 进展迅猛,但业内也流行三个反对开源的观点:开源 AI 无法与行业实验室的优势资源竞争;开源 AI 缺乏安全性;开源 AI 无法进行推理(reasoning)。本文作者 Varun Shenoy 在AI 基础设施公司Baseten 从事机器学习推理工作,他并不认同当...

2023-10-02 10:17:13 8598 1

原创 ChatGPT架构师:语言大模型的多模态能力、幻觉与研究经验

9月26日,OpenAI宣布ChatGPT新增了图片识别和语音能力,使得ChatGPT不仅可以进行文字交流,还可以给它展示图片并进行互动,这是一次ChatGPT向多模态进化的重大升级。OpenAI联合创始人,ChatGPT架构师John Schulman此前认为,添加多模态功能会给大模型带来极大的性能提升...

2023-09-27 13:36:01 6914 1

原创 NCCL源码解析⑦:机器间Channel连接

上节中完成了单机内部的channel搜索,仍然以ringGraph为例的话,相当于在单台机器内部搜索出来了一系列的环,接下来需要将机器之间的环连接起来。为了方便理解,假设两机十六卡的情况下第一台机器的一个ring为:graph->intra: GPU/0 GPU/7 GPU/6 GPU/3 GPU/2 GPU/5 GPU/4 GPU/1graph->int...

2023-09-22 08:28:19 3134

原创 大模型长上下文运行的关键问题

上下文长度的增加是 LLM 的一个显著发展趋势。过去一年,几种长上下文语言模型陆续问世,包括 GPT-4(32k上下文)、MosaicML 的 MPT(65k上下文)、Anthropic 的 Claude(100k上下文)等。然而,扩大 Transformer 的上下文长度是一个挑战,因为其核心的注意力层在时间复杂度和空间复杂度与输入序列长度的平方成正比。一年前,来自斯坦福大学、纽约州立大学布法罗...

2023-09-20 09:15:25 3075

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除