OneFlow深度学习框架

不止于成为世界上最快的开源深度学习框架。https://github.com/Oneflow-Inc/oneflow

  • 博客(401)
  • 收藏
  • 关注

原创 OneDiff 1.0发布!生产环境稳定加速SD/SVD模型

自Stable Diffusion模型发布以来,硅基流动开发的OneDiff图片/视频推理加速引擎以其卓越的性能、“一键”加速的易用性、以及对最新算法和应用框架的快速支持,深受开发者和用户的喜爱。今天,OneDiff v1.0.0正式发布。本次版本更新解决了此前版本v0.13中的问题,主要包括以下新特性、改进以及若干Bug修复:OneDiff质量评估重复利用编译图改进对Playground v2....

2024-04-18 11:20:10 425

原创 Stable Diffusion XL优化终极指南

如何在自己的显卡上获得SDXL的最佳质量和性能,以及如何选择适当的优化方法和工具,这一让GenAI用户倍感困惑的问题,业内一直没有一份清晰而详尽的评测报告可供参考。直到全栈开发者Félix San出手。在本文中,Félix介绍了相关SDXL优化的方法论、基础优化、Pipeline优化以及组件和参数优化。值得一提的是,基于实测表现,他高度评价并推荐了由硅基流动研发的图片/视频推理加速引擎OneDif...

2024-04-16 08:20:25 1840 1

原创 LLM推理的极限速度

本文作者ArsenyKapoulkine从零开始开发了语言大模型推理的一种实现方式calm(https://github.com/zeux/calm),旨在以最少的实现和无依赖性的方式为LLM架构获得最大的单 GPU 单批次硬件利用率,该项目的其中一个关键考虑因素是确定推理的极限速度,并根据该极限来衡量相对进展。他在本文中探讨这一理论极限及其影响。如果你对进一步的推导和图表感兴趣,他在这份笔记(...

2024-04-09 08:03:20 1822

原创 揭示GPU上的批处理策略

本文深入探讨了批处理在现代GPU上的工作原理,以及它是如何影响深度学习模型的推理速度,基于此,作者为模型优化提供了实用指导。通过优化批处理策略,研究人员和工程师可以更有效地利用计算资源,提高模型的推理效率。(本文作者为机器学习研究员Finbarr Timbers,他曾是DeepMind的工程师。本文由OneFlow编译发布,转载请联系授权。原文:https://www.artfintel.com/...

2024-04-04 08:11:26 1171 1

原创 百万用户通话新风潮:仅需50秒,无界AI让彩铃变身短视频

无界AI是由杭州超节点信息科技有限公司创立的国内领先的人工智能生成内容(AIGC)平台 , 专注于人工智能大模型在图像视频领域的生成创造,为用户提供先进且丰富的AIGC工具,满足不限于动漫、影视、短视频创作及设计等各行各业的图片与视频内容生产需求。自上线以来,无界AI平台已累计超过400多万C端、B端用户。在无界AI的图片/视频生成、AI写真等项目场景中,他们已使用硅基流动研发的图片/视频生成推理...

2024-04-02 08:04:08 2029

原创 LLM推理入门指南②:深入解析KV缓存

在本系列文章《LLM推理入门指南①:文本生成的初始化与解码阶段》中,作者对Transformer解码器的文本生成算法进行了高层次概述,着重介绍了两个阶段:单步初始化阶段,即提示的处理阶段,和逐个生成补全词元的多步生成阶段。本文进一步探讨了LLM推理的挑战 —— 第一大挑战是,注意力层(也称为自注意力层)与总序列长度(提示词元和生成补全词元)的计算成本呈二次方扩展的问题。幸运的是,生成步骤之间的许多...

2024-03-28 08:03:52 2912 1

原创 OneDiff加速“图生生”,解锁电商AI图像处理新范式

2024年,电商领域正目睹生成式AI软件工具的飞速发展,AI Generated Content (AIGC) 技术在电商应用中的普及率正在显著提升,这类技术能够显著提高商业运营的效率,并促进业绩的稳步增长。硅基流动研发的图片/视频生成推理引擎OneDiff能够以高性能和低成本的优势为AIGC应用程序提供支持。因其加速性能突出、部署简单、稳定性高的特点,南京一言万相网络科技有限公司的图生生团队在实...

2024-03-26 12:43:06 2176

原创 强化学习之父Richard Sutton:通往AGI的另一种可能

2019年,强化学习之父、阿尔伯塔大学教授Richard Sutton发表了后来被AI领域奉为经典的The Bitter lesson,这也是OpenAI研究员的必读文章。在这篇文章中,Richard指出,过去 70 年来,AI 研究的一大教训是过于重视人类既有经验和知识,而他认为最大的解决之道是摒弃人类在特定领域的知识,利用大规模算力才是王道。这一思想很快得到了OpenAI首席科学家Ilya S...

2024-03-21 08:03:51 4171

原创 AIGC开发者的效率利器:OneDiff让图片/视频生成加速3倍

OpenAI的视频生成模型Sora爆火一个多月,有关Diffusion Model的解析和探讨还在持续。近日,在硅基流动、EPIC、Datawhale主办的《多模态时代已至,Diffusion Model怎么玩儿?》活动中,硅基流动的OneDiff作者之一姚迟对图片/视频生成推理加速进行了全面介绍。自开源Stable Diffusion模型发布以来,OneDiff就以其卓越的性能长期保持领先。目前...

2024-03-21 08:03:51 452

原创 揭示语言大模型的采样过程

机器学习模型具有概率性。对于同一个问题,机器可能会给出不同回答,以“世界上最棒的美食是什么?”这一问题为例。假如我们间隔一分钟,对同一个人提问,这个人两次给出的回答应该是相同的;但如果我们分两次问模型同样的问题,它给出的答案可能会发生变化。如果模型认为越南菜最好吃的概率为70%,意大利菜最好吃的概率为30%,那么相应的,模型会有70...

2024-03-15 08:36:17 4049

原创 好久不见!OneFlow 1.0全新版本上线

好久不见。今天是 OneFlow 开源的第 1320天。与 OneFlow 框架的创作者们一样,过去一年,它也经历了过山车般的命运。好在,即使在下坡潜伏期依然被社区用户关注和使用,作为它的创作者,我们为此感到欣慰——这也是它还在更迭的价值和意义所在。终于,OneFlow 迎来了一个新的里程碑。距离上一次版本发布一年后,我们很高兴发布全新的 OneFlow v1.0.0 版本。本次更新共 447 ...

2024-03-12 09:49:01 3778

原创 有奖征集|与OneDiff加速前行,GenAI探索触手可及

生成式AI的发展不仅在改变我们的生活方式,也在重塑我们的工作模式。然而,GenAI的推理成本依然是阻碍应用创新的重大挑战。为此,针对图片/视频生成应用,硅基流动推出了专用推理加速引擎OneDiff。自开源版发布以来,OneDiff长期保持着业内领先的性能加速优势,大大降低了模型应用成本,并赢得了众多应用开发者和企业客户的青睐。现在,硅基流动正发起OneDiff应用案例征集活动,无论你是企业客户还是...

2024-03-07 08:58:57 552

原创 混合输入矩阵乘法的性能优化

AI驱动的技术正逐渐融入人们日常生活的各个角落,有望提高人们获取知识的能力,并提升整体生产效率。语言大模型(LLM)正是这些应用的核心。LLM对内存的需求很高,通常需要专用的硬件加速器,以高效地提供数百亿亿次浮点运算(Exaflops级别)的计算能力。本文将展示如何通过更有效地利用内存来解决计算方面的挑战。LLM中的大部分内存和...

2024-03-06 08:03:19 3448

原创 OpenAI的组织形态、决策机制与产品构建

与ChatGPT面世后的疑惑类似,视频生成大模型Sora发布之后,人们依然在问同样的问题:为什么OpenAI能做出这样的创新成果?要知道,世界上不乏人才密集、有钱、有数据的公司,但能持续做出划时代产品的团队寥寥无几。可以肯定的是,除了OpenAI团队中关键少数的技术远见,这些重量级产品的实现与他们的组织运作密不可分。那么,这些人到底是如何被组织起来的,他们有什么样的组织形态和文化?在Lenny R...

2024-03-01 08:49:24 3475

原创 LLM推理入门指南①:文本生成的初始化与解码阶段

随着生成式AI的火热发展,高企的语言大模型(LLM)推理性能和成本成为阻碍其大规模应用的关键挑战。LLM推理是指使用仅解码器Transformer模型生成词元,而大多数挑战及其相关的解决方法都来自这种特定的架构和用例。本系列文章将深入探讨LLM推理的不同层面及其挑战,同时,其中提供的有价值见解也适用于Transformer编码器模型的推理。通过本系列内容的学习,希望帮助读者了解与LLM推理密切相关...

2024-02-23 08:59:10 3180

原创 GenAI的“关键一跃”:推理与知识

当前的人工智能领域正通过生成式人工智能(GenAI)经历一场重大转变。这一转变不仅代表了技术上的飞跃,更标志着人工智能领域的范式转变,引发了有关GenAI的独特特性及其深远影响的关键问题讨论。植根于计算革命的丰富历史,本文从计算复杂性角度出发,探索推理和知识的本质,将历史性成就与最新的进展巧妙地交织在一起,以丰富我们对人工智能的理解。(本文作者为吕坚平博士。以下内容经授权后由OneFlow编译发布...

2024-02-18 09:05:33 4200

原创 从头理解与编码LLM的自注意力机制

本文将介绍Transformer架构和GPT-4、LLaMA等语言大模型中使用的自注意力机制。自注意力和相关机制是LLM的核心组件,使用LLM时,了解这些机制十分有必要。本文还提供了使用Python和PyTorch从零开始编码自注意力机制的详细指南,并演示其工作方式,帮助初学者和经验丰富的从业者深入理解它在LLM中的作用。本文作者是机器学习和人工智能研究员Sebastian Raschka,目前担...

2024-02-08 08:04:35 3474

原创 语言大模型的浮点运算分配

本文通过实证分析展示了实际LLM模型的FLOPS分配情况,并与理论分析进行对比。通过理论和实证相结合的方式,本文为理解和优化语言大模型的性能提供了有益见解。作者Finbarr Timbers是一名机器学习研究员,曾就职于DeepMind。(以下内容由OneFlow编译发布,转载请联系授权。原文:https://www.artfintel.com/p/where-do-llms-spend-thei...

2024-02-04 13:00:00 3281

原创 语言大模型推理加速指南

本文是一篇关于加快语言大模型推理速度的综合指南。从硬件优化到各种解码技巧,文章介绍了各种优化策略,旨在帮助读者更好地理解和优化LLM的性能。相信不论是这一领域的初学者或是专家,都能从中有所收获。本文作者为工程师和计算语言学家Theia。(以下内容由OneFlow编译发布,转载请联系授权。原文:https://vgel.me/posts/faster-inference/)作者 |TheiaOne...

2024-01-31 09:31:16 4314 1

原创 Mistral AI:探索LLM推理的吞吐、时延及成本空间

选择正确的LLM推理栈意味着选择适合你的任务的正确模型,并配以适当的推理代码在适当的硬件上运行。本文介绍了流行的LLM推理堆栈和设置,详细说明其推理的成本构成;并讨论当前的开源模型以及如何充分利用它们,同时还涉及当前开源服务栈中仍然缺失的功能,以及未来模型将解锁的新功能。本文源自MistralAI首席技术官Timothée Lacroix的演讲。他于2015年在Facebook AI Resea...

2024-01-24 09:18:25 4573 3

原创 大模型的规模扩展是否可持续?

GI何时会到来?如果我们能不断扩展LLMs++的规模(并因此取得更好和更通用的性能),就有理由期望到2040年(或更早)出现强人工智能,它能够自动化大部分认知劳动并加速人工智能研究。然而,如果扩展(scaling)不起作用,那么实现AGI的道路则会变得更加漫长、棘手。为全面探讨有关扩展的正反观点,我构造了两个虚构角色(正...

2024-01-17 09:05:35 4783 1

原创 硅基流动完成5000万元天使轮融资

北京硅动科技有限公司(以下简称“硅基流动”)于近日完成5000万元天使轮融资。本轮融资由创新工场领投,耀途资本、奇绩创坛以及王慧文等科技界知名人士跟投,华兴资本担任独家财务顾问。随着ChatGPT的爆火,生成式AI快速发展,全球算力需求随之爆发式增长,由此导致算力供给严重不足。高昂的算力成本和应用开发门槛成为生成式AI发展的主要瓶颈。成立于2023年8月的硅基流动致力于打造大模型时代的AI基础设施...

2024-01-10 18:47:19 8995

原创 OneFlow技术年货:800+页免费“大模型”电子书

2023年,无论对人工智能领域还是整个科技界而言,“ChatGPT”无疑是本年度第一关键词。这一年,在OneFlow社区发布的100多篇文章里,涉及大量与ChatGPT相关的大模型类技术解读、前瞻性观点以及开源故事,另有部分与深度学习框架相关的内容。在内容快餐化时代,这些文章或许很长,但对于渴望深度了解前沿技术的人不可或缺。很高兴不断有新用户通过这些优质内容加入OneFlow社区,并给予我们鼓励和...

2024-01-01 09:31:26 4719

原创 20篇NeurIPS论文精选:语言大模型的六大趋势

本文总结了NeurIPS 2023大会上与自然语言处理相关的20篇精彩论文。通过这些论文,作者主要观察到了LLM的六个主要趋势,这些论文涉及重新思考LLM的基本假设,并为其内在运作提供了新的见解和观点。本文作者Sebastian Ruder是Google Research研究员,发表了多篇机器学习和自然语言处理领域的顶级论文。(以下内容由OneFlow编译发布,转载请联系授权。原文:https:/...

2023-12-27 09:49:14 5546

原创 ChatGPT一周年:开源语言大模型的冲击

自2022年末发布后,ChatGPT给人工智能的研究和商业领域带来了巨大变革。通过有监督微调和人类反馈的强化学习,模型可以回答人类问题,并在广泛的任务范围内遵循指令。在获得这一成功之后,人们对LLM的兴趣不断增加,新的LLM在学术界和工业界不断涌现,其中包括许多专注于LLM的初创公司。尽管闭源LLM(如OpenAI的GPT、Anthropic的Claude)通常优于其对应的开源模型,但后者的进展十...

2023-12-20 09:52:55 11386

原创 迈向100倍加速:全栈Transformer推理优化

假设有两家公司,它们拥有同样强大的模型。公司A可以用1个GPU为10个用户提供模型,而公司B可以用1个GPU为20个用户提供模型。从长远来看,谁会在竞争中获胜呢?答案是公司B,因为它的成本更低。假设一位研究人员提出了一种超级聪明的解码方法:这种方法拥有巧妙的算法和扎实的数学基础,但无法与FlashAttention兼容。它能在生产...

2023-12-13 13:45:40 5501

原创 语言大模型的推理技巧

本文探讨了一系列语言大模型的推理优化技巧,涵盖KV缓存、量化和稀疏性等方法,并分享了如何有效实施这些技术。对于想要优化Transformer模型,以期提升推理速度或效率的人来说值得一读。本文作者为机器学习研究员Finbarr Timbers,他曾是DeepMind的工程师。(本文由OneFlow编译发布,转载请联系授权。原文:https://www.artfintel.com/p/transfor...

2023-12-12 09:09:03 4760

原创 LoRA微调语言大模型的实用技巧

目前,微调定制化LLM会耗费工程师的大量时间和精力,而选择合适的微调方法以及掌握相关技巧可以做到事半功倍。此前,在《微调语言大模型选LoRA还是全参数?基于LLaMA 2深度分析》中,文中对比了全参数微调和LoRA各自的优势和劣势。而在《LoRA和QLoRA微调语言大模型:数百次实验后的见解》中,本文作者讨论了使用LoRA和QLoRA对LLM进行微调的实用见解。在本文中,作者进一步分享了使用LoR...

2023-12-08 08:04:01 3715

原创 机器学习硬件十年:性能变迁与趋势

本文分析了机器学习硬件性能的最新趋势,重点关注不同GPU和加速器的计算性能、内存、互连带宽、性价比和能效等指标。这篇分析旨在提供关于ML硬件能力及其瓶颈的全面视图。本文作者来自调研机构Epoch,致力于研究AI发展轨迹与治理的关键问题和趋势。(本文由OneFlow编译发布,转载请联系授权。原文:https://epochai.org/blog/trends-in-machine-learning-...

2023-12-05 08:04:02 8679

原创 语言大模型的分布式训练与高效微调指南

最近语言大模型(LLM)异常火爆,一个非常特别的开源社区正在探索在消费级硬件上微调、提供服务和进行推理的最佳方式。为满足上述需求,出现了许多出色的开源代码库,以HuggingFace生态系统为中心,这些代码库还包括FastChat、Axolotl和LLama.cpp。本文专注于分布式训练策略的具体细节,特别是DeepSpe...

2023-11-29 09:28:25 4210

原创 ChatGPT规模化服务的经验与教训

2022年11月30日,OpenAI发布ChatGPT,以很多人未曾预料的速度迅速走红。与此同时,由于短时间内用户量的暴涨,导致服务器过载,迫使OpenAI停止新用户的注册。ChatGPT发布这一年,同样的情景发生了好几次。在最近的OpenAI开发日之后,使用量再度激增,随后OpenAI宣布暂停新用户使用其付费服务。这背后体现了大模型提供规模化服务时运维的重要性。Evan Morikawa是Ope...

2023-11-21 10:02:07 4306

原创 可复现的语言大模型推理性能指标

LLMPerf是一个开源项目,旨在帮助用户对语言模型进行基准测试,并使其性能具有可复现性。它能够帮助用户评估不同LLM的性能,并根据具体任务做出明智的决策。该项目选择了多个指标来衡量LLM的性能,包括吞吐量、时延、内存使用和成本等。本文介绍了如何使用LLMPerf进行基准测试,并提供了一些实用的技巧和建议。此外,本文还对当前最流行的LLM进行了基准测试,并提供了详细的结果和分析。需要说明的是,LL...

2023-11-17 08:51:58 2965 1

原创 开源语言大模型演进史:向LLaMA 2看齐

本文是开源 LLM 发展史系列文章的第三部分。此前,第一部分《开源语言大模型演进史:早期革新》回顾了创建开源 LLM 的最初尝试。第二部分《开源语言大模型演进史:高质量基础模型竞赛》研究了目前可用的最受欢迎的开源基础模型(即已进行预训练但尚未微调或对齐的语言模型)。本文将介绍如何通过微调/对齐那些更出色的LLaMA-2等开源模型来提升它们的效果,并缩小开源和私有LLM之间的差距。(本文作者为Reb...

2023-11-10 08:03:23 3718

原创 微调语言大模型选LoRA还是全参数?基于LLaMA 2深度分析

本文对比了全参数微调和LoRA,并分析了这两种技术各自的优势和劣势。作者使用了三个真实用例来训练LLaMA 2模型,这提供了比较特定任务的性能、硬件要求和训练成本的基准。本文证明了使用LoRA需要在serving效率和模型质量之间做出权衡,而这取决于具体的任务。此外,本文还提供了关于如何通过智能提示技术来稳定LoRA训练的深入见解,并进一步验证了采用较低的学习率可以增强最终模型检查点的可靠性。实验...

2023-11-08 08:03:28 3975

原创 开源语言大模型演进史:高质量基础模型竞赛

本文是开源 LLM 发展史系列文章的第二部分。第一部分《开源语言大模型演进史:早期革新》回顾了创建开源 LLM 的最初尝试。本文将研究目前可用的最受欢迎的开源基础模型(即已进行预训练但尚未微调或对齐的语言模型)。(本文作者为Rebuy公司AI总监、深度学习博士Cameron R. Wolfe。以下内容经授权后由OneFlow编译发布,转载请联系授权。原文:https://cameronrwolfe...

2023-11-03 09:49:34 2429

原创 为什么开源语言大模型很重要?

在LLM领域,开源究竟意味着什么?假设开源社区拥有了真正的开源LLM,其权重、数据集、代码和基础设施都可公开获取,我们又将从中获得哪些重要收益?本文作者为Vikram Sreekanti和Joseph E. Gonzalez,前者是Aqueduct的联合创始人及CEO,后者是加州大学伯克利分校的教授和Run LLM联合创始人,他们就开源的重要性与核心价值进行了探讨。

2023-11-02 08:03:50 10192 7

原创 GPU架构与计算入门指南

大多数工程师对CPU和顺序编程都十分熟悉,这是因为自从他们开始编写CPU代码以来,就与之密切接触。然而,对于GPU的内部工作原理及其独特之处,他们的了解则相对较少。过去十年,由于GPU在深度学习中得到广泛应用而变得极为重要。因此,每位软件工程师都有必要了解其基本工作原理。本文旨在为读者提供这方面的背景知识。本文作者为软件工程师Abhinav Upadhyay,他在《大规模并行处理器编程》第四版(H...

2023-11-01 09:31:14 4494

原创 LoRA和QLoRA微调语言大模型:数百次实验后的见解

LoRA是用于训练自定义LLM的高效参数微调技术。本文作者Sebastian Raschka通过成百上千次实验,他为使用LoRA和QLoRA对LLM进行微调提供了实用见解,包括节省内存、选择最佳配置等。Sebastia是威斯康星大学麦迪逊分校的统计学助理教授,也是人工智能平台Lightning AI的LLM研究员。(本文由OneFlow编译发布,转载请联系授权。原文:https://lightn...

2023-10-27 09:16:22 3704

原创 语言大模型推理性能工程:最佳实践

在这篇文章中,MosaicML工程师团队分享了如何在生产环境中充分利用流行开源语言大模型(LLM)的最佳实践。此外,他们还提供了围绕模型部署推理服务的指南,以帮助用户更好地选择模型和部署硬件。他们在生产环境中使用了多个基于PyTorch的后端。这些指南是MosaicML工程师团队基于FasterTransformers、vLLM以及NVIDIA的TensorRT-LLM等背后的经验总结而来。Mos...

2023-10-25 09:45:37 2315

原创 全面对比GPT-3.5与LLaMA 2微调

通用大模型虽好,但通过微调得到一个专属大模型不仅可以提高模型的可操控性、输出格式的可靠性和语气的一致性,还能让用户缩短提示长度,加速API调用,降低成本。本文作者Sam L'Huillier对GPT-3.5与LLaMA 2的微调进行了基准测试,以验证手动微调的模型能否以较低的成本接近GPT-3.5的性能水平,从而帮助用户在各类任务中选择最佳微调模型。本文作者是微调实践者Sam L'Huillier...

2023-10-19 08:03:18 3385

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除