OneFlow深度学习框架-CSDN博客

原创 OpenAI安全系统负责人：从头构建视频生成扩散模型

作者 |Lilian WengOneFlow编译翻译｜杨婷、宛子琳、张雪聃题图由SiliconFlow MaaS平台生成过去几年，扩散模型（Diffusion models）在图像合成领域取得了显著成效。目前，研究界已开始尝试更具挑战性的任务——将该技术用于视频生成。视频生成任务是图像生成的扩展，因为视频本质上是一系列连续的图像帧。相较于单一的图像生成，视频生成的难度更大，原因如下：它要求在时间...

2024-05-21 10:35:03 252

原创 900个开源AI工具背后，我看到的趋势

作者|Chip HuyenOneFlow编译翻译｜杨婷、宛子琳四年前，我对开源机器学习生态系统进行了分析。自那时起，情况就发生了变化，所以这次我打算重新讨论这个话题，本次主要关注的是基础模型的技术栈。我把完整的开源AI代码库列表放在了“llama-police”(https://huyenchip.com/llama-police，该列表每6小时更新一次。其余大部分也放在了我的GitHub“c...

2024-05-16 08:03:58 546

原创 LLM Serving有效吞吐量的最大化实现

如今的LLM应用具有多样化的时延要求。例如，聊天机器人可能需要快速的初始响应（例如，少于0.2秒），但在解码速度上只需要匹配人类阅读速度，而代码补全则需要快速的端到端生成时间，以实现实时代码建议。本文说明了优化吞吐量（throughput）的现有serving系统，在时延标准下并不是最优选择。作者主张使用有效吞吐量（goodput），即符合服务等级目标（SLO）的每秒完成请求数量，作为衡量LLM ...

2024-05-15 08:17:29 798

原创 GPT4o“全能”模型发布；2人AI团队被收购；3款AI搜索引擎

1. OpenAI发布GPT4o，能实时语音视频交互今天，OpenAI发布了最新的旗舰版模型GPT4o（“o”代表全能）。这是一个跨音频、视觉和文本的端到端的新模型，可以在平均320ms内对人类的语音输入进行响应，而此前ChatGPT的平均响应时间为2.8s（GPT-3.5）和5.4s（GPT-4）。性能方面，GPT4o在英语文本和代码上的性能与GPT-4 Turbo相匹配，同时API的速度比GP...

2024-05-14 09:09:09 421

原创 LLM推理入门指南③：剖析模型性能

在本系列文章《LLM推理入门指南①：文本生成的初始化与解码阶段》中，作者对Transformer解码器的文本生成算法进行了高层次概述，着重介绍了两个阶段：提示的处理阶段和逐个生成补全词元的多步生成阶段。在上一篇文章《LLM推理入门指南②：深入解析KV Cache》中，深入探讨了KV Cache优化。本文将转变方向，探索可能影响机器学习模型速度的不同性能瓶颈。本文所详细介绍的概念广泛适用于任何ML模...

2024-05-07 08:03:53 291

原创终极GPU互联技术探索：消失的内存墙

《AI算力的阿喀琉斯之踵：内存墙》一文曾指出，过去20年，硬件算力峰值增长了90000倍，但是DRAM/硬件互连带宽只增长了30倍。在这个趋势下，特别是芯片内或者芯片间的数据传输会迅速成为训练大规模AI模型的瓶颈。上个月，在英伟达GTC 2024大会上发布了“更大的GPU”：新一代Blackwell 架构的B200和GB200 GPU ，其中B200采用台积电4nm工艺，晶体管数量高达2080亿，...

2024-05-02 08:33:21 947

原创生成式AI产业经济学：价值分配与利润结构

处在生成式人工智能（GenAI）技术变革的浪潮上，人们对这一将降低成本和产生利润的强大工具充满了期待。然而，ChatGPT爆火一年后，GenAI产业还没有形成像当前云服务产业那样的价值结构，后者的上层应用占据价值链中的大部分比例，并获取了大部分利润，基础设施软件层的利润次之，而硬件层分到的“蛋糕”最少。与之相反，在GenAI领域，硬件层却占据了近90%的利润率。蓦然回首，大家发现，整个产业链基本都...

2024-04-29 08:35:02 589

原创 LLaMA 3：大模型之战的新序幕

作者 | 符尧OneFlow编译翻译｜杨婷、宛子琳、张雪聃本文要点概览：文本数据的扩展可能已经达到了极限，因为易于获取的网络文本资源（如Common Crawl、GitHub、ArXiv等）已基本被充分利用。尽管如此，通过更深入地挖掘互联网资源、搜寻图书馆藏书及使用合成数据，我们仍有望获得新的文本数据，但要实现数据量级的大幅提升却面临重重挑战——这些新增的数据更可能是当前数量级上的增量。规模扩展竞...

2024-04-25 08:04:06 1025

原创 OneDiff 1.0发布！生产环境稳定加速SD/SVD模型

自Stable Diffusion模型发布以来，硅基流动开发的OneDiff图片/视频推理加速引擎以其卓越的性能、“一键”加速的易用性、以及对最新算法和应用框架的快速支持，深受开发者和用户的喜爱。今天，OneDiff v1.0.0正式发布。本次版本更新解决了此前版本v0.13中的问题，主要包括以下新特性、改进以及若干Bug修复：OneDiff质量评估重复利用编译图改进对Playground v2....

2024-04-18 11:20:10 1015

原创 Stable Diffusion XL优化终极指南

如何在自己的显卡上获得SDXL的最佳质量和性能，以及如何选择适当的优化方法和工具，这一让GenAI用户倍感困惑的问题，业内一直没有一份清晰而详尽的评测报告可供参考。直到全栈开发者Félix San出手。在本文中，Félix介绍了相关SDXL优化的方法论、基础优化、Pipeline优化以及组件和参数优化。值得一提的是，基于实测表现，他高度评价并推荐了由硅基流动研发的图片/视频推理加速引擎OneDif...

2024-04-16 08:20:25 2971

原创 LLM推理的极限速度

本文作者ArsenyKapoulkine从零开始开发了语言大模型推理的一种实现方式calm（https://github.com/zeux/calm），旨在以最少的实现和无依赖性的方式为LLM架构获得最大的单 GPU 单批次硬件利用率，该项目的其中一个关键考虑因素是确定推理的极限速度，并根据该极限来衡量相对进展。他在本文中探讨这一理论极限及其影响。如果你对进一步的推导和图表感兴趣，他在这份笔记(...

2024-04-09 08:03:20 2716

原创揭示GPU上的批处理策略

本文深入探讨了批处理在现代GPU上的工作原理，以及它是如何影响深度学习模型的推理速度，基于此，作者为模型优化提供了实用指导。通过优化批处理策略，研究人员和工程师可以更有效地利用计算资源，提高模型的推理效率。（本文作者为机器学习研究员Finbarr Timbers，他曾是DeepMind的工程师。本文由OneFlow编译发布，转载请联系授权。原文：https://www.artfintel.com/...

2024-04-04 08:11:26 2395 1

原创百万用户通话新风潮：仅需50秒，无界AI让彩铃变身短视频

无界AI是由杭州超节点信息科技有限公司创立的国内领先的人工智能生成内容（AIGC）平台，专注于人工智能大模型在图像视频领域的生成创造，为用户提供先进且丰富的AIGC工具，满足不限于动漫、影视、短视频创作及设计等各行各业的图片与视频内容生产需求。自上线以来，无界AI平台已累计超过400多万C端、B端用户。在无界AI的图片/视频生成、AI写真等项目场景中，他们已使用硅基流动研发的图片/视频生成推理...

2024-04-02 08:04:08 2324

原创 LLM推理入门指南②：深入解析KV缓存

在本系列文章《LLM推理入门指南①：文本生成的初始化与解码阶段》中，作者对Transformer解码器的文本生成算法进行了高层次概述，着重介绍了两个阶段：单步初始化阶段，即提示的处理阶段，和逐个生成补全词元的多步生成阶段。本文进一步探讨了LLM推理的挑战 —— 第一大挑战是，注意力层（也称为自注意力层）与总序列长度（提示词元和生成补全词元）的计算成本呈二次方扩展的问题。幸运的是，生成步骤之间的许多...

2024-03-28 08:03:52 3302 1

原创 OneDiff加速“图生生”，解锁电商AI图像处理新范式

2024年，电商领域正目睹生成式AI软件工具的飞速发展，AI Generated Content (AIGC) 技术在电商应用中的普及率正在显著提升，这类技术能够显著提高商业运营的效率，并促进业绩的稳步增长。硅基流动研发的图片/视频生成推理引擎OneDiff能够以高性能和低成本的优势为AIGC应用程序提供支持。因其加速性能突出、部署简单、稳定性高的特点，南京一言万相网络科技有限公司的图生生团队在实...

2024-03-26 12:43:06 2465

原创强化学习之父Richard Sutton：通往AGI的另一种可能

2019年，强化学习之父、阿尔伯塔大学教授Richard Sutton发表了后来被AI领域奉为经典的The Bitter lesson，这也是OpenAI研究员的必读文章。在这篇文章中，Richard指出，过去 70 年来，AI 研究的一大教训是过于重视人类既有经验和知识，而他认为最大的解决之道是摒弃人类在特定领域的知识，利用大规模算力才是王道。这一思想很快得到了OpenAI首席科学家Ilya S...

2024-03-21 08:03:51 4540

原创 AIGC开发者的效率利器：OneDiff让图片/视频生成加速3倍

OpenAI的视频生成模型Sora爆火一个多月，有关Diffusion Model的解析和探讨还在持续。近日，在硅基流动、EPIC、Datawhale主办的《多模态时代已至，Diffusion Model怎么玩儿？》活动中，硅基流动的OneDiff作者之一姚迟对图片/视频生成推理加速进行了全面介绍。自开源Stable Diffusion模型发布以来，OneDiff就以其卓越的性能长期保持领先。目前...

2024-03-21 08:03:51 510

原创揭示语言大模型的采样过程

机器学习模型具有概率性。对于同一个问题，机器可能会给出不同回答，以“世界上最棒的美食是什么？”这一问题为例。假如我们间隔一分钟，对同一个人提问，这个人两次给出的回答应该是相同的；但如果我们分两次问模型同样的问题，它给出的答案可能会发生变化。如果模型认为越南菜最好吃的概率为70%，意大利菜最好吃的概率为30%，那么相应的，模型会有70...

2024-03-15 08:36:17 4379

原创好久不见！OneFlow 1.0全新版本上线

好久不见。今天是 OneFlow 开源的第 1320天。与 OneFlow 框架的创作者们一样，过去一年，它也经历了过山车般的命运。好在，即使在下坡潜伏期依然被社区用户关注和使用，作为它的创作者，我们为此感到欣慰——这也是它还在更迭的价值和意义所在。终于，OneFlow 迎来了一个新的里程碑。距离上一次版本发布一年后，我们很高兴发布全新的 OneFlow v1.0.0 版本。本次更新共 447 ...

2024-03-12 09:49:01 4024

原创有奖征集｜与OneDiff加速前行，GenAI探索触手可及

生成式AI的发展不仅在改变我们的生活方式，也在重塑我们的工作模式。然而，GenAI的推理成本依然是阻碍应用创新的重大挑战。为此，针对图片/视频生成应用，硅基流动推出了专用推理加速引擎OneDiff。自开源版发布以来，OneDiff长期保持着业内领先的性能加速优势，大大降低了模型应用成本，并赢得了众多应用开发者和企业客户的青睐。现在，硅基流动正发起OneDiff应用案例征集活动，无论你是企业客户还是...

2024-03-07 08:58:57 581

原创混合输入矩阵乘法的性能优化

AI驱动的技术正逐渐融入人们日常生活的各个角落，有望提高人们获取知识的能力，并提升整体生产效率。语言大模型（LLM）正是这些应用的核心。LLM对内存的需求很高，通常需要专用的硬件加速器，以高效地提供数百亿亿次浮点运算（Exaflops级别）的计算能力。本文将展示如何通过更有效地利用内存来解决计算方面的挑战。LLM中的大部分内存和...

2024-03-06 08:03:19 3576

原创 OpenAI的组织形态、决策机制与产品构建

与ChatGPT面世后的疑惑类似，视频生成大模型Sora发布之后，人们依然在问同样的问题：为什么OpenAI能做出这样的创新成果？要知道，世界上不乏人才密集、有钱、有数据的公司，但能持续做出划时代产品的团队寥寥无几。可以肯定的是，除了OpenAI团队中关键少数的技术远见，这些重量级产品的实现与他们的组织运作密不可分。那么，这些人到底是如何被组织起来的，他们有什么样的组织形态和文化？在Lenny R...

2024-03-01 08:49:24 3648

原创 LLM推理入门指南①：文本生成的初始化与解码阶段

随着生成式AI的火热发展，高企的语言大模型（LLM）推理性能和成本成为阻碍其大规模应用的关键挑战。LLM推理是指使用仅解码器Transformer模型生成词元，而大多数挑战及其相关的解决方法都来自这种特定的架构和用例。本系列文章将深入探讨LLM推理的不同层面及其挑战，同时，其中提供的有价值见解也适用于Transformer编码器模型的推理。通过本系列内容的学习，希望帮助读者了解与LLM推理密切相关...

2024-02-23 08:59:10 3366

原创 GenAI的“关键一跃”：推理与知识

当前的人工智能领域正通过生成式人工智能（GenAI）经历一场重大转变。这一转变不仅代表了技术上的飞跃，更标志着人工智能领域的范式转变，引发了有关GenAI的独特特性及其深远影响的关键问题讨论。植根于计算革命的丰富历史，本文从计算复杂性角度出发，探索推理和知识的本质，将历史性成就与最新的进展巧妙地交织在一起，以丰富我们对人工智能的理解。（本文作者为吕坚平博士。以下内容经授权后由OneFlow编译发布...

2024-02-18 09:05:33 4291

原创从头理解与编码LLM的自注意力机制

本文将介绍Transformer架构和GPT-4、LLaMA等语言大模型中使用的自注意力机制。自注意力和相关机制是LLM的核心组件，使用LLM时，了解这些机制十分有必要。本文还提供了使用Python和PyTorch从零开始编码自注意力机制的详细指南，并演示其工作方式，帮助初学者和经验丰富的从业者深入理解它在LLM中的作用。本文作者是机器学习和人工智能研究员Sebastian Raschka，目前担...

2024-02-08 08:04:35 3556

原创语言大模型的浮点运算分配

本文通过实证分析展示了实际LLM模型的FLOPS分配情况，并与理论分析进行对比。通过理论和实证相结合的方式，本文为理解和优化语言大模型的性能提供了有益见解。作者Finbarr Timbers是一名机器学习研究员，曾就职于DeepMind。（以下内容由OneFlow编译发布，转载请联系授权。原文：https://www.artfintel.com/p/where-do-llms-spend-thei...

2024-02-04 13:00:00 3358

原创语言大模型推理加速指南

本文是一篇关于加快语言大模型推理速度的综合指南。从硬件优化到各种解码技巧，文章介绍了各种优化策略，旨在帮助读者更好地理解和优化LLM的性能。相信不论是这一领域的初学者或是专家，都能从中有所收获。本文作者为工程师和计算语言学家Theia。（以下内容由OneFlow编译发布，转载请联系授权。原文：https://vgel.me/posts/faster-inference/）作者 |TheiaOne...

2024-01-31 09:31:16 4414 1

原创 Mistral AI：探索LLM推理的吞吐、时延及成本空间

选择正确的LLM推理栈意味着选择适合你的任务的正确模型，并配以适当的推理代码在适当的硬件上运行。本文介绍了流行的LLM推理堆栈和设置，详细说明其推理的成本构成；并讨论当前的开源模型以及如何充分利用它们，同时还涉及当前开源服务栈中仍然缺失的功能，以及未来模型将解锁的新功能。本文源自MistralAI首席技术官Timothée Lacroix的演讲。他于2015年在Facebook AI Resea...

2024-01-24 09:18:25 4678 3

原创大模型的规模扩展是否可持续？

GI何时会到来？如果我们能不断扩展LLMs++的规模（并因此取得更好和更通用的性能），就有理由期望到2040年（或更早）出现强人工智能，它能够自动化大部分认知劳动并加速人工智能研究。然而，如果扩展（scaling）不起作用，那么实现AGI的道路则会变得更加漫长、棘手。为全面探讨有关扩展的正反观点，我构造了两个虚构角色（正...

2024-01-17 09:05:35 4841 1

原创硅基流动完成5000万元天使轮融资

北京硅动科技有限公司（以下简称“硅基流动”）于近日完成5000万元天使轮融资。本轮融资由创新工场领投，耀途资本、奇绩创坛以及王慧文等科技界知名人士跟投，华兴资本担任独家财务顾问。随着ChatGPT的爆火，生成式AI快速发展，全球算力需求随之爆发式增长，由此导致算力供给严重不足。高昂的算力成本和应用开发门槛成为生成式AI发展的主要瓶颈。成立于2023年8月的硅基流动致力于打造大模型时代的AI基础设施...

2024-01-10 18:47:19 9109

原创 OneFlow技术年货：800+页免费“大模型”电子书

2023年，无论对人工智能领域还是整个科技界而言，“ChatGPT”无疑是本年度第一关键词。这一年，在OneFlow社区发布的100多篇文章里，涉及大量与ChatGPT相关的大模型类技术解读、前瞻性观点以及开源故事，另有部分与深度学习框架相关的内容。在内容快餐化时代，这些文章或许很长，但对于渴望深度了解前沿技术的人不可或缺。很高兴不断有新用户通过这些优质内容加入OneFlow社区，并给予我们鼓励和...

2024-01-01 09:31:26 4781

原创 20篇NeurIPS论文精选：语言大模型的六大趋势

本文总结了NeurIPS 2023大会上与自然语言处理相关的20篇精彩论文。通过这些论文，作者主要观察到了LLM的六个主要趋势，这些论文涉及重新思考LLM的基本假设，并为其内在运作提供了新的见解和观点。本文作者Sebastian Ruder是Google Research研究员，发表了多篇机器学习和自然语言处理领域的顶级论文。（以下内容由OneFlow编译发布，转载请联系授权。原文：https:/...

2023-12-27 09:49:14 5634

原创 ChatGPT一周年：开源语言大模型的冲击

自2022年末发布后，ChatGPT给人工智能的研究和商业领域带来了巨大变革。通过有监督微调和人类反馈的强化学习，模型可以回答人类问题，并在广泛的任务范围内遵循指令。在获得这一成功之后，人们对LLM的兴趣不断增加，新的LLM在学术界和工业界不断涌现，其中包括许多专注于LLM的初创公司。尽管闭源LLM（如OpenAI的GPT、Anthropic的Claude）通常优于其对应的开源模型，但后者的进展十...

2023-12-20 09:52:55 11516

原创迈向100倍加速：全栈Transformer推理优化

假设有两家公司，它们拥有同样强大的模型。公司A可以用1个GPU为10个用户提供模型，而公司B可以用1个GPU为20个用户提供模型。从长远来看，谁会在竞争中获胜呢？答案是公司B，因为它的成本更低。假设一位研究人员提出了一种超级聪明的解码方法：这种方法拥有巧妙的算法和扎实的数学基础，但无法与FlashAttention兼容。它能在生产...

2023-12-13 13:45:40 5624

原创语言大模型的推理技巧

本文探讨了一系列语言大模型的推理优化技巧，涵盖KV缓存、量化和稀疏性等方法，并分享了如何有效实施这些技术。对于想要优化Transformer模型，以期提升推理速度或效率的人来说值得一读。本文作者为机器学习研究员Finbarr Timbers，他曾是DeepMind的工程师。（本文由OneFlow编译发布，转载请联系授权。原文：https://www.artfintel.com/p/transfor...

2023-12-12 09:09:03 4817

原创 LoRA微调语言大模型的实用技巧

目前，微调定制化LLM会耗费工程师的大量时间和精力，而选择合适的微调方法以及掌握相关技巧可以做到事半功倍。此前，在《微调语言大模型选LoRA还是全参数？基于LLaMA 2深度分析》中，文中对比了全参数微调和LoRA各自的优势和劣势。而在《LoRA和QLoRA微调语言大模型：数百次实验后的见解》中，本文作者讨论了使用LoRA和QLoRA对LLM进行微调的实用见解。在本文中，作者进一步分享了使用LoR...

2023-12-08 08:04:01 3809

原创机器学习硬件十年：性能变迁与趋势

本文分析了机器学习硬件性能的最新趋势，重点关注不同GPU和加速器的计算性能、内存、互连带宽、性价比和能效等指标。这篇分析旨在提供关于ML硬件能力及其瓶颈的全面视图。本文作者来自调研机构Epoch，致力于研究AI发展轨迹与治理的关键问题和趋势。（本文由OneFlow编译发布，转载请联系授权。原文：https://epochai.org/blog/trends-in-machine-learning-...

2023-12-05 08:04:02 8834

原创语言大模型的分布式训练与高效微调指南

最近语言大模型（LLM）异常火爆，一个非常特别的开源社区正在探索在消费级硬件上微调、提供服务和进行推理的最佳方式。为满足上述需求，出现了许多出色的开源代码库，以HuggingFace生态系统为中心，这些代码库还包括FastChat、Axolotl和LLama.cpp。本文专注于分布式训练策略的具体细节，特别是DeepSpe...

2023-11-29 09:28:25 4344

原创 ChatGPT规模化服务的经验与教训

2022年11月30日，OpenAI发布ChatGPT，以很多人未曾预料的速度迅速走红。与此同时，由于短时间内用户量的暴涨，导致服务器过载，迫使OpenAI停止新用户的注册。ChatGPT发布这一年，同样的情景发生了好几次。在最近的OpenAI开发日之后，使用量再度激增，随后OpenAI宣布暂停新用户使用其付费服务。这背后体现了大模型提供规模化服务时运维的重要性。Evan Morikawa是Ope...

2023-11-21 10:02:07 4345

原创可复现的语言大模型推理性能指标

LLMPerf是一个开源项目，旨在帮助用户对语言模型进行基准测试，并使其性能具有可复现性。它能够帮助用户评估不同LLM的性能，并根据具体任务做出明智的决策。该项目选择了多个指标来衡量LLM的性能，包括吞吐量、时延、内存使用和成本等。本文介绍了如何使用LLMPerf进行基准测试，并提供了一些实用的技巧和建议。此外，本文还对当前最流行的LLM进行了基准测试，并提供了详细的结果和分析。需要说明的是，LL...

2023-11-17 08:51:58 3039 1

空空如也

空空如也