OneFlow深度学习框架

不止于成为世界上最快的开源深度学习框架。https://github.com/Oneflow-Inc/oneflow

  • 博客(422)
  • 收藏
  • 关注

原创 生成式AI推理企业的市场机遇、竞争与未来

作者 |KEVIN ZHANGOneFlow编译翻译|杨婷、张雪聃头图由SiliconCloud平台生成在生成式人工智能时代的投资选择中,风投公司对“铲子型”初创企业的浓厚兴趣,这些企业的业务涵盖了模型微调、可观测性分析、以及人工智能的“抽象化”服务(例如,将AI Inference作为服务)等。人们预测,随着初创公司和企业将人工智能技术纳入其产品组合,他们可能不愿意或无法在内部构建这些技术能力...

2024-07-18 08:14:14 1012

原创 双Buff加持!无GPU畅玩ControlNet Union,一个模型搞定10+图像控制

双重Buff加持,ComfyUI用户的生产力大升级。以往,为了实现轮廓、深度、动作姿势、颜色等多种控制效果,你可能需要安装不同的控制模型来独立实现,并且大大占用了你本地的存储空间。现在,Controlnet Union的推出让所有这些控制模型实现All in one,大大简化了用户操作流程,备受社区用户的推崇。更重要的是,不用考虑硬件与环境限制,在硅基流动团队开源的专用于ComfyUI的云节点Bi...

2024-07-17 11:33:44 567

原创 比肩Midjourney-v6!没有GPU也能跑可图Kolors

比肩Midjourney-v6,快手的文生图开源模型可图Kolors一发布,开源社区就炸开了锅。短短几天,可图在Github上收获2k Star,Huggingface模型下载热榜第一。7月6日,快手宣布开源数十亿参数的文生图模型可图Kolors,可图支持中英文双语,支持长达256 token的上下文长度,最重要的是可以渲染中文,生成效果上实现了质的飞跃。值得一提的是,可图采用了智谱的开源大模型C...

2024-07-12 09:01:44 2185 1

原创 硅基流动完成近亿元融资:加速生成式AI技术普惠进程

硅基流动(SiliconFlow)近日完成总金额近亿元人民币的天使+轮融资。本轮融资由某知名产业方领投,跟投方包括智谱AI、360 和水木清华校友基金等知名企业及机构,老股东耀途资本继续超额跟进,华兴资本担任独家财务顾问。本轮融资不仅是对硅基流动技术实力和市场前景的高度认可,也将为其未来发展提供强劲动力。创始人兼 CEO 袁进辉表示:“非常感谢各位投资方对硅基流动的信任和支持。这次融资将帮助我们进...

2024-07-04 11:57:29 2060

原创 国产大模型新标杆!比肩GPT4,DeepSeek V2重磅升级

近日,深度求索团队更新了DeepSeek-V2模型,新版本DeepSeek-V2-Chat模型推理能力有了极大提升。尤其在数学解题、逻辑推理、编程、指令跟随、Json格式输出不同维度上,最高有16%的性能提升。在Arena-Hard测评中,DeepSeek-V2-Chat与GPT-4-0314的对战胜率从41.6%提升到了68.3%。DeepSeek-V2-Chat模型的角色扮演能力显著增强,可以...

2024-07-02 18:10:13 3957

原创 OpenAI停服,国产大模型免费用!开发者Token自由实现了

昨天,OpenAI 突然宣布终止对中国提供 API 服务,进一步收紧国内开发者访问 GPT 等高水平大模型。国内开发者真是太难了。好在,随着开源大模型水平越来越高,开发者已经有很多不错的 “平替”,比如 Qwen2、DeepSeek V2 等模型。为了给开发者提供更快、更便宜、更全面、体验更丝滑的开源大模型 API,AI Infra 领域的专业选手硅基流动(SiliconFlow)上...

2024-06-26 08:32:37 6271 1

原创 大模型产品化第一年​:战术、运营与战略

这是一个激动人心的时代,所有人都能够利用语言大模型(LLM)进行各种各样的产品构建。过去一年里,LLM已经达到了“足够好”的水平,可以应用于现实世界的场景,并且模型每年都在迭代,变得更好、更便宜。伴随着社交媒体上的一系列产品演示,预计到2025年,AI领域的...

2024-06-21 11:03:57 3638

原创 击败GPT4-Turbo,最强开源代码模型DeepSeek-Coder-V2问世

6月17日,深度求索正式开源了DeepSeek-Coder-V2模型。根据相关评测榜单,这是全球首个在代码、数学能力上超越GPT-4-Turbo、Claude3-Opus、Gemini-1.5Pro等的开源代码大模型。DeepSeek-Coder-V2包含236B与16B两种参数规模,对编程语言的支持从86种扩展到338种。据官方博客介绍,DeepSeek-Coder-V2沿用DeepSeek-V...

2024-06-19 10:01:52 3936

原创 文生图王者登场:Stable Diffusion 3 Medium正式开源

今年2月,Stability.ai发布了Stable Diffusion 3预览版,在多主题提示、图像质量和拼写能力方面具有显著的性能提升。Stable Diffusion 3是一个系列模型,参数量从800M到8B不等。6月12日,Stability AI正式开源了Stable Diffusion 3 Medium(2B),这是迄今为止最先进的文生图开源模型,被视为生成式AI发展的一个重要里程碑。...

2024-06-15 09:04:13 4238

原创 最强开源大模型面世:阿里发布Qwen2

今天凌晨,阿里巴巴通义千问团队发布了Qwen2系列开源模型。该系列模型包括5个尺寸的预训练和指令微调模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。随即,硅基流动团队在云服务平台SiliconCloud上线了Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B模型。欢迎来玩儿:https://cloud.sili...

2024-06-07 09:11:25 3843

原创 SiliconCloud上新:GLM-4-9B,通用能力超越Llama 3

今天,智谱发布了第四代 GLM 系列开源模型:GLM-4-9B。GLM-4-9B 系列模型包括:基础版本 GLM-4-9B(8K)、对话版本 GLM-4-9B-Chat(128K)、超长上下文版本 GLM-4-9B-Chat-1M(1M)和多模态版本 GLM-4V-9B-Chat(8K)。GLM-4-9B 模型具备了更强大的推理性能、更长的上下文处理能力、多语言、多模态和 All Tools 等突...

2024-06-06 08:56:54 1736

原创 SiliconCloud公测上线,每人免费送3亿Token

随着模型能力的不断提升,不少开源大模型在诸多维度上已能媲美GPT4这类顶尖闭源模型,这也让它们能胜任多数生成式AI应用场景,更多开发者也开始基于开源大模型开发应用。作为坚定看好开源大模型发展的AI Infra公司,硅基流动(SiliconFlow)顺势而为。今天,我们推出集合主流开源大模型的一站式云服务平台SiliconCloud,为开发者提供更全面、更快、更便宜的模型API。“6.18购物狂欢节...

2024-05-31 18:12:53 3397 2

原创 20+公司AI应用产品分析;24名工程师的LLM使用痛点

1. 20多家顶尖科技公司的AI应用AI产品功能对市场来说仍然是新事物。没有人完全弄清楚其中多少功能将得到广泛使用,以及用户在多大程度上真正想要这些新产品。本系列文章分析了海外科技公司将AI集成到其产品中的新方法和功能,包括Chrome、Slack、Docusign、Yelp、Google地图、Pinterest、Airbnb、Replit、Airtable等,总体而言,这些产品团队目前正在构建的...

2024-05-29 09:07:46 988

原创 OpenAI安全系统负责人:从头构建视频生成扩散模型

作者 |Lilian WengOneFlow编译翻译|杨婷、宛子琳、张雪聃题图由SiliconFlow MaaS平台生成过去几年,扩散模型(Diffusion models)在图像合成领域取得了显著成效。目前,研究界已开始尝试更具挑战性的任务——将该技术用于视频生成。视频生成任务是图像生成的扩展,因为视频本质上是一系列连续的图像帧。相较于单一的图像生成,视频生成的难度更大,原因如下:它要求在时间...

2024-05-21 10:35:03 560

原创 900个开源AI工具背后,我看到的趋势

作者|Chip HuyenOneFlow编译翻译|杨婷、宛子琳四年前,我对开源机器学习生态系统进行了分析。自那时起,情况就发生了变化,所以这次我打算重新讨论这个话题,本次主要关注的是基础模型的技术栈。我把完整的开源AI代码库列表放在了“llama-police”(https://huyenchip.com/llama-police,该列表每6小时更新一次。其余大部分也放在了我的GitHub“c...

2024-05-16 08:03:58 822

原创 LLM Serving有效吞吐量的最大化实现

如今的LLM应用具有多样化的时延要求。例如,聊天机器人可能需要快速的初始响应(例如,少于0.2秒),但在解码速度上只需要匹配人类阅读速度,而代码补全则需要快速的端到端生成时间,以实现实时代码建议。本文说明了优化吞吐量(throughput)的现有serving系统,在时延标准下并不是最优选择。作者主张使用有效吞吐量(goodput),即符合服务等级目标(SLO)的每秒完成请求数量,作为衡量LLM ...

2024-05-15 08:17:29 1096

原创 GPT4o“全能”模型发布;2人AI团队被收购;3款AI搜索引擎

1. OpenAI发布GPT4o,能实时语音视频交互今天,OpenAI发布了最新的旗舰版模型GPT4o(“o”代表全能)。这是一个跨音频、视觉和文本的端到端的新模型,可以在平均320ms内对人类的语音输入进行响应,而此前ChatGPT的平均响应时间为2.8s(GPT-3.5)和5.4s(GPT-4)。性能方面,GPT4o在英语文本和代码上的性能与GPT-4 Turbo相匹配,同时API的速度比GP...

2024-05-14 09:09:09 730

原创 LLM推理入门指南③:剖析模型性能

在本系列文章《LLM推理入门指南①:文本生成的初始化与解码阶段》中,作者对Transformer解码器的文本生成算法进行了高层次概述,着重介绍了两个阶段:提示的处理阶段和逐个生成补全词元的多步生成阶段。在上一篇文章《LLM推理入门指南②:深入解析KV Cache》中,深入探讨了KV Cache优化。本文将转变方向,探索可能影响机器学习模型速度的不同性能瓶颈。本文所详细介绍的概念广泛适用于任何ML模...

2024-05-07 08:03:53 2451

原创 终极GPU互联技术探索:消失的内存墙

《AI算力的阿喀琉斯之踵:内存墙》一文曾指出,过去20年,硬件算力峰值增长了90000倍,但是DRAM/硬件互连带宽只增长了30倍。在这个趋势下,特别是芯片内或者芯片间的数据传输会迅速成为训练大规模AI模型的瓶颈。上个月,在英伟达GTC 2024大会上发布了“更大的GPU”:新一代Blackwell 架构的B200和GB200 GPU ,其中B200采用台积电4nm工艺,晶体管数量高达2080亿,...

2024-05-02 08:33:21 4466

原创 生成式AI产业经济学:价值分配与利润结构

处在生成式人工智能(GenAI)技术变革的浪潮上,人们对这一将降低成本和产生利润的强大工具充满了期待。然而,ChatGPT爆火一年后,GenAI产业还没有形成像当前云服务产业那样的价值结构,后者的上层应用占据价值链中的大部分比例,并获取了大部分利润,基础设施软件层的利润次之,而硬件层分到的“蛋糕”最少。与之相反,在GenAI领域,硬件层却占据了近90%的利润率。蓦然回首,大家发现,整个产业链基本都...

2024-04-29 08:35:02 2406

原创 LLaMA 3:大模型之战的新序幕

本文要点概览:文本数据的扩展可能已经达到了极限,因为易于获取的网络文本资源(如Common Crawl、GitHub、ArXiv等)已基本被充分利用。尽管如此,通过更深入地挖掘互联网资源、搜寻图书馆藏书及使用合成数据,我们仍有望获得新的文本数据,但要实现数据量级的大幅提升却面临重重挑战——这些新增的数据更可能是当前数量级上的增量。规模扩展竞...

2024-04-25 08:04:06 2588 2

原创 OneDiff 1.0发布!生产环境稳定加速SD/SVD模型

自Stable Diffusion模型发布以来,硅基流动开发的OneDiff图片/视频推理加速引擎以其卓越的性能、“一键”加速的易用性、以及对最新算法和应用框架的快速支持,深受开发者和用户的喜爱。今天,OneDiff v1.0.0正式发布。本次版本更新解决了此前版本v0.13中的问题,主要包括以下新特性、改进以及若干Bug修复:OneDiff质量评估重复利用编译图改进对Playground v2....

2024-04-18 11:20:10 1811

原创 Stable Diffusion XL优化终极指南

如何在自己的显卡上获得SDXL的最佳质量和性能,以及如何选择适当的优化方法和工具,这一让GenAI用户倍感困惑的问题,业内一直没有一份清晰而详尽的评测报告可供参考。直到全栈开发者Félix San出手。在本文中,Félix介绍了相关SDXL优化的方法论、基础优化、Pipeline优化以及组件和参数优化。值得一提的是,基于实测表现,他高度评价并推荐了由硅基流动研发的图片/视频推理加速引擎OneDif...

2024-04-16 08:20:25 3984

原创 LLM推理的极限速度

本文作者ArsenyKapoulkine从零开始开发了语言大模型推理的一种实现方式calm(https://github.com/zeux/calm),旨在以最少的实现和无依赖性的方式为LLM架构获得最大的单 GPU 单批次硬件利用率,该项目的其中一个关键考虑因素是确定推理的极限速度,并根据该极限来衡量相对进展。他在本文中探讨这一理论极限及其影响。如果你对进一步的推导和图表感兴趣,他在这份笔记(...

2024-04-09 08:03:20 3090

原创 揭示GPU上的批处理策略

本文深入探讨了批处理在现代GPU上的工作原理,以及它是如何影响深度学习模型的推理速度,基于此,作者为模型优化提供了实用指导。通过优化批处理策略,研究人员和工程师可以更有效地利用计算资源,提高模型的推理效率。(本文作者为机器学习研究员Finbarr Timbers,他曾是DeepMind的工程师。本文由OneFlow编译发布,转载请联系授权。原文:https://www.artfintel.com/...

2024-04-04 08:11:26 2953 1

原创 百万用户通话新风潮:仅需50秒,无界AI让彩铃变身短视频

无界AI是由杭州超节点信息科技有限公司创立的国内领先的人工智能生成内容(AIGC)平台 , 专注于人工智能大模型在图像视频领域的生成创造,为用户提供先进且丰富的AIGC工具,满足不限于动漫、影视、短视频创作及设计等各行各业的图片与视频内容生产需求。自上线以来,无界AI平台已累计超过400多万C端、B端用户。在无界AI的图片/视频生成、AI写真等项目场景中,他们已使用硅基流动研发的图片/视频生成推理...

2024-04-02 08:04:08 2591

原创 LLM推理入门指南②:深入解析KV缓存

在本系列文章《LLM推理入门指南①:文本生成的初始化与解码阶段》中,作者对Transformer解码器的文本生成算法进行了高层次概述,着重介绍了两个阶段:单步初始化阶段,即提示的处理阶段,和逐个生成补全词元的多步生成阶段。本文进一步探讨了LLM推理的挑战 —— 第一大挑战是,注意力层(也称为自注意力层)与总序列长度(提示词元和生成补全词元)的计算成本呈二次方扩展的问题。幸运的是,生成步骤之间的许多...

2024-03-28 08:03:52 3797 1

原创 OneDiff加速“图生生”,解锁电商AI图像处理新范式

2024年,电商领域正目睹生成式AI软件工具的飞速发展,AI Generated Content (AIGC) 技术在电商应用中的普及率正在显著提升,这类技术能够显著提高商业运营的效率,并促进业绩的稳步增长。硅基流动研发的图片/视频生成推理引擎OneDiff能够以高性能和低成本的优势为AIGC应用程序提供支持。因其加速性能突出、部署简单、稳定性高的特点,南京一言万相网络科技有限公司的图生生团队在实...

2024-03-26 12:43:06 2789

原创 强化学习之父Richard Sutton:通往AGI的另一种可能

2019年,强化学习之父、阿尔伯塔大学教授Richard Sutton发表了后来被AI领域奉为经典的The Bitter lesson,这也是OpenAI研究员的必读文章。在这篇文章中,Richard指出,过去 70 年来,AI 研究的一大教训是过于重视人类既有经验和知识,而他认为最大的解决之道是摒弃人类在特定领域的知识,利用大规模算力才是王道。这一思想很快得到了OpenAI首席科学家Ilya S...

2024-03-21 08:03:51 4819

原创 AIGC开发者的效率利器:OneDiff让图片/视频生成加速3倍

OpenAI的视频生成模型Sora爆火一个多月,有关Diffusion Model的解析和探讨还在持续。近日,在硅基流动、EPIC、Datawhale主办的《多模态时代已至,Diffusion Model怎么玩儿?》活动中,硅基流动的OneDiff作者之一姚迟对图片/视频生成推理加速进行了全面介绍。自开源Stable Diffusion模型发布以来,OneDiff就以其卓越的性能长期保持领先。目前...

2024-03-21 08:03:51 611

原创 揭示语言大模型的采样过程

机器学习模型具有概率性。对于同一个问题,机器可能会给出不同回答,以“世界上最棒的美食是什么?”这一问题为例。假如我们间隔一分钟,对同一个人提问,这个人两次给出的回答应该是相同的;但如果我们分两次问模型同样的问题,它给出的答案可能会发生变化。如果模型认为越南菜最好吃的概率为70%,意大利菜最好吃的概率为30%,那么相应的,模型会有70...

2024-03-15 08:36:17 4698

原创 好久不见!OneFlow 1.0全新版本上线

好久不见。今天是 OneFlow 开源的第 1320天。与 OneFlow 框架的创作者们一样,过去一年,它也经历了过山车般的命运。好在,即使在下坡潜伏期依然被社区用户关注和使用,作为它的创作者,我们为此感到欣慰——这也是它还在更迭的价值和意义所在。终于,OneFlow 迎来了一个新的里程碑。距离上一次版本发布一年后,我们很高兴发布全新的 OneFlow v1.0.0 版本。本次更新共 447 ...

2024-03-12 09:49:01 4214

原创 有奖征集|与OneDiff加速前行,GenAI探索触手可及

生成式AI的发展不仅在改变我们的生活方式,也在重塑我们的工作模式。然而,GenAI的推理成本依然是阻碍应用创新的重大挑战。为此,针对图片/视频生成应用,硅基流动推出了专用推理加速引擎OneDiff。自开源版发布以来,OneDiff长期保持着业内领先的性能加速优势,大大降低了模型应用成本,并赢得了众多应用开发者和企业客户的青睐。现在,硅基流动正发起OneDiff应用案例征集活动,无论你是企业客户还是...

2024-03-07 08:58:57 628

原创 混合输入矩阵乘法的性能优化

AI驱动的技术正逐渐融入人们日常生活的各个角落,有望提高人们获取知识的能力,并提升整体生产效率。语言大模型(LLM)正是这些应用的核心。LLM对内存的需求很高,通常需要专用的硬件加速器,以高效地提供数百亿亿次浮点运算(Exaflops级别)的计算能力。本文将展示如何通过更有效地利用内存来解决计算方面的挑战。LLM中的大部分内存和...

2024-03-06 08:03:19 3688

原创 OpenAI的组织形态、决策机制与产品构建

与ChatGPT面世后的疑惑类似,视频生成大模型Sora发布之后,人们依然在问同样的问题:为什么OpenAI能做出这样的创新成果?要知道,世界上不乏人才密集、有钱、有数据的公司,但能持续做出划时代产品的团队寥寥无几。可以肯定的是,除了OpenAI团队中关键少数的技术远见,这些重量级产品的实现与他们的组织运作密不可分。那么,这些人到底是如何被组织起来的,他们有什么样的组织形态和文化?在Lenny R...

2024-03-01 08:49:24 3843

原创 LLM推理入门指南①:文本生成的初始化与解码阶段

随着生成式AI的火热发展,高企的语言大模型(LLM)推理性能和成本成为阻碍其大规模应用的关键挑战。LLM推理是指使用仅解码器Transformer模型生成词元,而大多数挑战及其相关的解决方法都来自这种特定的架构和用例。本系列文章将深入探讨LLM推理的不同层面及其挑战,同时,其中提供的有价值见解也适用于Transformer编码器模型的推理。通过本系列内容的学习,希望帮助读者了解与LLM推理密切相关...

2024-02-23 08:59:10 3735

原创 GenAI的“关键一跃”:推理与知识

当前的人工智能领域正通过生成式人工智能(GenAI)经历一场重大转变。这一转变不仅代表了技术上的飞跃,更标志着人工智能领域的范式转变,引发了有关GenAI的独特特性及其深远影响的关键问题讨论。植根于计算革命的丰富历史,本文从计算复杂性角度出发,探索推理和知识的本质,将历史性成就与最新的进展巧妙地交织在一起,以丰富我们对人工智能的理解。(本文作者为吕坚平博士。以下内容经授权后由OneFlow编译发布...

2024-02-18 09:05:33 4400

原创 从头理解与编码LLM的自注意力机制

本文将介绍Transformer架构和GPT-4、LLaMA等语言大模型中使用的自注意力机制。自注意力和相关机制是LLM的核心组件,使用LLM时,了解这些机制十分有必要。本文还提供了使用Python和PyTorch从零开始编码自注意力机制的详细指南,并演示其工作方式,帮助初学者和经验丰富的从业者深入理解它在LLM中的作用。本文作者是机器学习和人工智能研究员Sebastian Raschka,目前担...

2024-02-08 08:04:35 3736

原创 语言大模型的浮点运算分配

本文通过实证分析展示了实际LLM模型的FLOPS分配情况,并与理论分析进行对比。通过理论和实证相结合的方式,本文为理解和优化语言大模型的性能提供了有益见解。作者Finbarr Timbers是一名机器学习研究员,曾就职于DeepMind。(以下内容由OneFlow编译发布,转载请联系授权。原文:https://www.artfintel.com/p/where-do-llms-spend-thei...

2024-02-04 13:00:00 3461

原创 语言大模型推理加速指南

本文是一篇关于加快语言大模型推理速度的综合指南。从硬件优化到各种解码技巧,文章介绍了各种优化策略,旨在帮助读者更好地理解和优化LLM的性能。相信不论是这一领域的初学者或是专家,都能从中有所收获。本文作者为工程师和计算语言学家Theia。(以下内容由OneFlow编译发布,转载请联系授权。原文:https://vgel.me/posts/faster-inference/)作者 |TheiaOne...

2024-01-31 09:31:16 4646 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除