OneFlow深度学习框架

不止于成为世界上最快的开源深度学习框架。https://github.com/Oneflow-Inc/oneflow

  • 博客(429)
  • 收藏
  • 关注

原创 10倍加速LLM计算效率:消失的矩阵乘

矩阵乘法(MatMul)是深度学习中的主要计算瓶颈,尤其在ChatGPT等Transformer模型中,矩阵乘法的运行时长约占其总运行时长的45-60%,解决这一挑战对发展更经济的大模型具有重要意义。为此,加州大学的研究人员在论文《Scalable MatMul-free Language Modeling(可扩展的无矩阵乘法语言模型构建)》 中试图通过消除矩阵乘法来构建更便宜、耗能更少的语言模型...

2024-08-20 09:15:21 1329

原创 如何准确且可解释地评估大模型量化效果?

随着Llama 3.1的发布,关于不同量化方法的优缺点的讨论变得相当热烈。模型量化质量的评估一向是个难题,本文将分享Fireworks如何处理量化以及评估其中的权衡。以下是本文内容摘要:量化没有通用的标准——量化技术多种多样,模型中可以量化的部分也各不相同。

2024-08-09 11:54:44 1040

原创 比肩GPT4,没有显卡也能用Llama-3.1-405B

近日,Meta发布了备受瞩目的Llama-3.1系列模型,包括405B “超大杯”模型傲视群雄,成为首个比肩最强大模型的开源模型。Llama-3.1系列包括8B、70B、405B参数三个版本模型,上下文长度扩展至128k,支持八种语言,具有良好的代码生成能力、复杂推理能力以及工具使用能力。更长的上下文让模型能够处理更复杂和深入的对话场景,...

2024-08-09 11:54:44 2193

原创 前OpenAI联创、ChatGPT负责人John Schulman:大模型的升级秘诀

8月6日,OpenAI联合创始人、ChatGPT架构师John Schulman宣布离职,将加入另一家由前OpenAI员工Dario Amodei创办的大模型公司Anthropic。近9年前,Schulman在研究生毕业后加入OpenAI,成为创始团队的一员。他是深度强化学习的早期先驱之一,很多人不知道的是,他也是ChatGPT项目的负责人,是他领导了ChatGPT的秘密武器RLHF(人类反馈的强...

2024-08-08 18:06:01 5596

原创 超越SD3,比肩MJ v6,文生图模型FLUX.1开源

近日,图片生成模型FLUX.1引爆了AIGC社区,其在视觉质量、图像细节和输出多样性等方面性能优越,输出极佳的图片生成效果。FLUX.1系列模型由Black Forest Labs开源,创始人Robin Rombach是Stable Diffusion的两位主要作者之一。所有公开的FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构,并扩展到12B参数。这些模型经过特别微调,保...

2024-08-08 18:06:01 1562 1

原创 AI搜索Perplexity的产品构建之道

作为一家刚成立不到两年的新公司,AI搜索新星Perplexity与搜索巨头Google和AI先锋OpenAI展开竞争,争夺未来搜索领域的一席之地。目前,Perplexity已经拥有数以千万计的用户,不过,该团队的成员还不到50人。更令人振奋的是,这个年轻团队已经实现了超过2000万美元的...

2024-08-02 11:50:08 2294

原创 AI Scaling的神话

截至目前,语言模型越来越大,能力也越来越强,但过去的表现能预测未来吗?一种流行的观点是,我们应该期待当前的趋势继续保持下去,并且出现更多数量级,这最终可能会引领我们实现AGI。本文作者认为,这种观点来自于一系列神话和误解。从表面上看,规模扩展(Scaling)具有可预测性,但这是对研究成果的误解。此外,有迹象表明,LLM开发者已经接近高质量训练数据的极限。而且,模型行业正面临着模型尺寸的强烈下行压...

2024-07-26 09:03:08 962

原创 生成式AI推理企业的市场机遇、竞争与未来

在生成式人工智能时代的投资选择中,风投公司对“铲子型”初创企业的浓厚兴趣,这些企业的业务涵盖了模型微调、可观测性分析、以及人工智能的“抽象化”服务(例如,将AI Inference作为服务)等。人们预测,随着初创公司和企业将人工智能技术纳入其产品组合,他们可能不愿意或无法在内部构建这些技术能力...

2024-07-18 08:14:14 1198

原创 双Buff加持!无GPU畅玩ControlNet Union,一个模型搞定10+图像控制

双重Buff加持,ComfyUI用户的生产力大升级。以往,为了实现轮廓、深度、动作姿势、颜色等多种控制效果,你可能需要安装不同的控制模型来独立实现,并且大大占用了你本地的存储空间。现在,Controlnet Union的推出让所有这些控制模型实现All in one,大大简化了用户操作流程,备受社区用户的推崇。更重要的是,不用考虑硬件与环境限制,在硅基流动团队开源的专用于ComfyUI的云节点Bi...

2024-07-17 11:33:44 2138

原创 比肩Midjourney-v6!没有GPU也能跑可图Kolors

比肩Midjourney-v6,快手的文生图开源模型可图Kolors一发布,开源社区就炸开了锅。短短几天,可图在Github上收获2k Star,Huggingface模型下载热榜第一。7月6日,快手宣布开源数十亿参数的文生图模型可图Kolors,可图支持中英文双语,支持长达256 token的上下文长度,最重要的是可以渲染中文,生成效果上实现了质的飞跃。值得一提的是,可图采用了智谱的开源大模型C...

2024-07-12 09:01:44 3379 1

原创 硅基流动完成近亿元融资:加速生成式AI技术普惠进程

硅基流动(SiliconFlow)近日完成总金额近亿元人民币的天使+轮融资。本轮融资由某知名产业方领投,跟投方包括智谱AI、360 和水木清华校友基金等知名企业及机构,老股东耀途资本继续超额跟进,华兴资本担任独家财务顾问。本轮融资不仅是对硅基流动技术实力和市场前景的高度认可,也将为其未来发展提供强劲动力。创始人兼 CEO 袁进辉表示:“非常感谢各位投资方对硅基流动的信任和支持。这次融资将帮助我们进...

2024-07-04 11:57:29 2443

原创 国产大模型新标杆!比肩GPT4,DeepSeek V2重磅升级

近日,深度求索团队更新了DeepSeek-V2模型,新版本DeepSeek-V2-Chat模型推理能力有了极大提升。尤其在数学解题、逻辑推理、编程、指令跟随、Json格式输出不同维度上,最高有16%的性能提升。在Arena-Hard测评中,DeepSeek-V2-Chat与GPT-4-0314的对战胜率从41.6%提升到了68.3%。DeepSeek-V2-Chat模型的角色扮演能力显著增强,可以...

2024-07-02 18:10:13 4573

原创 OpenAI停服,国产大模型免费用!开发者Token自由实现了

昨天,OpenAI 突然宣布终止对中国提供 API 服务,进一步收紧国内开发者访问 GPT 等高水平大模型。国内开发者真是太难了。好在,随着开源大模型水平越来越高,开发者已经有很多不错的 “平替”,比如 Qwen2、DeepSeek V2 等模型。为了给开发者提供更快、更便宜、更全面、体验更丝滑的开源大模型 API,AI Infra 领域的专业选手硅基流动(SiliconFlow)上...

2024-06-26 08:32:37 7126 1

原创 大模型产品化第一年​:战术、运营与战略

这是一个激动人心的时代,所有人都能够利用语言大模型(LLM)进行各种各样的产品构建。过去一年里,LLM已经达到了“足够好”的水平,可以应用于现实世界的场景,并且模型每年都在迭代,变得更好、更便宜。伴随着社交媒体上的一系列产品演示,预计到2025年,AI领域的...

2024-06-21 11:03:57 4100

原创 击败GPT4-Turbo,最强开源代码模型DeepSeek-Coder-V2问世

6月17日,深度求索正式开源了DeepSeek-Coder-V2模型。根据相关评测榜单,这是全球首个在代码、数学能力上超越GPT-4-Turbo、Claude3-Opus、Gemini-1.5Pro等的开源代码大模型。DeepSeek-Coder-V2包含236B与16B两种参数规模,对编程语言的支持从86种扩展到338种。据官方博客介绍,DeepSeek-Coder-V2沿用DeepSeek-V...

2024-06-19 10:01:52 4414

原创 文生图王者登场:Stable Diffusion 3 Medium正式开源

今年2月,Stability.ai发布了Stable Diffusion 3预览版,在多主题提示、图像质量和拼写能力方面具有显著的性能提升。Stable Diffusion 3是一个系列模型,参数量从800M到8B不等。6月12日,Stability AI正式开源了Stable Diffusion 3 Medium(2B),这是迄今为止最先进的文生图开源模型,被视为生成式AI发展的一个重要里程碑。...

2024-06-15 09:04:13 5210

原创 最强开源大模型面世:阿里发布Qwen2

今天凌晨,阿里巴巴通义千问团队发布了Qwen2系列开源模型。该系列模型包括5个尺寸的预训练和指令微调模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。随即,硅基流动团队在云服务平台SiliconCloud上线了Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B模型。欢迎来玩儿:https://cloud.sili...

2024-06-07 09:11:25 4426

原创 SiliconCloud上新:GLM-4-9B,通用能力超越Llama 3

今天,智谱发布了第四代 GLM 系列开源模型:GLM-4-9B。GLM-4-9B 系列模型包括:基础版本 GLM-4-9B(8K)、对话版本 GLM-4-9B-Chat(128K)、超长上下文版本 GLM-4-9B-Chat-1M(1M)和多模态版本 GLM-4V-9B-Chat(8K)。GLM-4-9B 模型具备了更强大的推理性能、更长的上下文处理能力、多语言、多模态和 All Tools 等突...

2024-06-06 08:56:54 1957

原创 SiliconCloud公测上线,每人免费送3亿Token

随着模型能力的不断提升,不少开源大模型在诸多维度上已能媲美GPT4这类顶尖闭源模型,这也让它们能胜任多数生成式AI应用场景,更多开发者也开始基于开源大模型开发应用。作为坚定看好开源大模型发展的AI Infra公司,硅基流动(SiliconFlow)顺势而为。今天,我们推出集合主流开源大模型的一站式云服务平台SiliconCloud,为开发者提供更全面、更快、更便宜的模型API。“6.18购物狂欢节...

2024-05-31 18:12:53 3887 2

原创 20+公司AI应用产品分析;24名工程师的LLM使用痛点

1. 20多家顶尖科技公司的AI应用AI产品功能对市场来说仍然是新事物。没有人完全弄清楚其中多少功能将得到广泛使用,以及用户在多大程度上真正想要这些新产品。本系列文章分析了海外科技公司将AI集成到其产品中的新方法和功能,包括Chrome、Slack、Docusign、Yelp、Google地图、Pinterest、Airbnb、Replit、Airtable等,总体而言,这些产品团队目前正在构建的...

2024-05-29 09:07:46 1105

原创 OpenAI安全系统负责人:从头构建视频生成扩散模型

作者 |Lilian WengOneFlow编译翻译|杨婷、宛子琳、张雪聃题图由SiliconFlow MaaS平台生成过去几年,扩散模型(Diffusion models)在图像合成领域取得了显著成效。目前,研究界已开始尝试更具挑战性的任务——将该技术用于视频生成。视频生成任务是图像生成的扩展,因为视频本质上是一系列连续的图像帧。相较于单一的图像生成,视频生成的难度更大,原因如下:它要求在时间...

2024-05-21 10:35:03 657

原创 900个开源AI工具背后,我看到的趋势

作者|Chip HuyenOneFlow编译翻译|杨婷、宛子琳四年前,我对开源机器学习生态系统进行了分析。自那时起,情况就发生了变化,所以这次我打算重新讨论这个话题,本次主要关注的是基础模型的技术栈。我把完整的开源AI代码库列表放在了“llama-police”(https://huyenchip.com/llama-police,该列表每6小时更新一次。其余大部分也放在了我的GitHub“c...

2024-05-16 08:03:58 915

原创 LLM Serving有效吞吐量的最大化实现

如今的LLM应用具有多样化的时延要求。例如,聊天机器人可能需要快速的初始响应(例如,少于0.2秒),但在解码速度上只需要匹配人类阅读速度,而代码补全则需要快速的端到端生成时间,以实现实时代码建议。本文说明了优化吞吐量(throughput)的现有serving系统,在时延标准下并不是最优选择。作者主张使用有效吞吐量(goodput),即符合服务等级目标(SLO)的每秒完成请求数量,作为衡量LLM ...

2024-05-15 08:17:29 1264

原创 GPT4o“全能”模型发布;2人AI团队被收购;3款AI搜索引擎

1. OpenAI发布GPT4o,能实时语音视频交互今天,OpenAI发布了最新的旗舰版模型GPT4o(“o”代表全能)。这是一个跨音频、视觉和文本的端到端的新模型,可以在平均320ms内对人类的语音输入进行响应,而此前ChatGPT的平均响应时间为2.8s(GPT-3.5)和5.4s(GPT-4)。性能方面,GPT4o在英语文本和代码上的性能与GPT-4 Turbo相匹配,同时API的速度比GP...

2024-05-14 09:09:09 813

原创 LLM推理入门指南③:剖析模型性能

在本系列文章《LLM推理入门指南①:文本生成的初始化与解码阶段》中,作者对Transformer解码器的文本生成算法进行了高层次概述,着重介绍了两个阶段:提示的处理阶段和逐个生成补全词元的多步生成阶段。在上一篇文章《LLM推理入门指南②:深入解析KV Cache》中,深入探讨了KV Cache优化。本文将转变方向,探索可能影响机器学习模型速度的不同性能瓶颈。本文所详细介绍的概念广泛适用于任何ML模...

2024-05-07 08:03:53 2589

原创 终极GPU互联技术探索:消失的内存墙

《AI算力的阿喀琉斯之踵:内存墙》一文曾指出,过去20年,硬件算力峰值增长了90000倍,但是DRAM/硬件互连带宽只增长了30倍。在这个趋势下,特别是芯片内或者芯片间的数据传输会迅速成为训练大规模AI模型的瓶颈。上个月,在英伟达GTC 2024大会上发布了“更大的GPU”:新一代Blackwell 架构的B200和GB200 GPU ,其中B200采用台积电4nm工艺,晶体管数量高达2080亿,...

2024-05-02 08:33:21 4754

原创 生成式AI产业经济学:价值分配与利润结构

处在生成式人工智能(GenAI)技术变革的浪潮上,人们对这一将降低成本和产生利润的强大工具充满了期待。然而,ChatGPT爆火一年后,GenAI产业还没有形成像当前云服务产业那样的价值结构,后者的上层应用占据价值链中的大部分比例,并获取了大部分利润,基础设施软件层的利润次之,而硬件层分到的“蛋糕”最少。与之相反,在GenAI领域,硬件层却占据了近90%的利润率。蓦然回首,大家发现,整个产业链基本都...

2024-04-29 08:35:02 2533

原创 LLaMA 3:大模型之战的新序幕

本文要点概览:文本数据的扩展可能已经达到了极限,因为易于获取的网络文本资源(如Common Crawl、GitHub、ArXiv等)已基本被充分利用。尽管如此,通过更深入地挖掘互联网资源、搜寻图书馆藏书及使用合成数据,我们仍有望获得新的文本数据,但要实现数据量级的大幅提升却面临重重挑战——这些新增的数据更可能是当前数量级上的增量。规模扩展竞...

2024-04-25 08:04:06 2703 2

原创 OneDiff 1.0发布!生产环境稳定加速SD/SVD模型

自Stable Diffusion模型发布以来,硅基流动开发的OneDiff图片/视频推理加速引擎以其卓越的性能、“一键”加速的易用性、以及对最新算法和应用框架的快速支持,深受开发者和用户的喜爱。今天,OneDiff v1.0.0正式发布。本次版本更新解决了此前版本v0.13中的问题,主要包括以下新特性、改进以及若干Bug修复:OneDiff质量评估重复利用编译图改进对Playground v2....

2024-04-18 11:20:10 1859

原创 Stable Diffusion XL优化终极指南

如何在自己的显卡上获得SDXL的最佳质量和性能,以及如何选择适当的优化方法和工具,这一让GenAI用户倍感困惑的问题,业内一直没有一份清晰而详尽的评测报告可供参考。直到全栈开发者Félix San出手。在本文中,Félix介绍了相关SDXL优化的方法论、基础优化、Pipeline优化以及组件和参数优化。值得一提的是,基于实测表现,他高度评价并推荐了由硅基流动研发的图片/视频推理加速引擎OneDif...

2024-04-16 08:20:25 4237

原创 LLM推理的极限速度

本文作者ArsenyKapoulkine从零开始开发了语言大模型推理的一种实现方式calm(https://github.com/zeux/calm),旨在以最少的实现和无依赖性的方式为LLM架构获得最大的单 GPU 单批次硬件利用率,该项目的其中一个关键考虑因素是确定推理的极限速度,并根据该极限来衡量相对进展。他在本文中探讨这一理论极限及其影响。如果你对进一步的推导和图表感兴趣,他在这份笔记(...

2024-04-09 08:03:20 3146

原创 揭示GPU上的批处理策略

本文深入探讨了批处理在现代GPU上的工作原理,以及它是如何影响深度学习模型的推理速度,基于此,作者为模型优化提供了实用指导。通过优化批处理策略,研究人员和工程师可以更有效地利用计算资源,提高模型的推理效率。(本文作者为机器学习研究员Finbarr Timbers,他曾是DeepMind的工程师。本文由OneFlow编译发布,转载请联系授权。原文:https://www.artfintel.com/...

2024-04-04 08:11:26 3017 1

原创 百万用户通话新风潮:仅需50秒,无界AI让彩铃变身短视频

无界AI是由杭州超节点信息科技有限公司创立的国内领先的人工智能生成内容(AIGC)平台 , 专注于人工智能大模型在图像视频领域的生成创造,为用户提供先进且丰富的AIGC工具,满足不限于动漫、影视、短视频创作及设计等各行各业的图片与视频内容生产需求。自上线以来,无界AI平台已累计超过400多万C端、B端用户。在无界AI的图片/视频生成、AI写真等项目场景中,他们已使用硅基流动研发的图片/视频生成推理...

2024-04-02 08:04:08 2624

原创 LLM推理入门指南②:深入解析KV缓存

在本系列文章《LLM推理入门指南①:文本生成的初始化与解码阶段》中,作者对Transformer解码器的文本生成算法进行了高层次概述,着重介绍了两个阶段:单步初始化阶段,即提示的处理阶段,和逐个生成补全词元的多步生成阶段。本文进一步探讨了LLM推理的挑战 —— 第一大挑战是,注意力层(也称为自注意力层)与总序列长度(提示词元和生成补全词元)的计算成本呈二次方扩展的问题。幸运的是,生成步骤之间的许多...

2024-03-28 08:03:52 3980 1

原创 OneDiff加速“图生生”,解锁电商AI图像处理新范式

2024年,电商领域正目睹生成式AI软件工具的飞速发展,AI Generated Content (AIGC) 技术在电商应用中的普及率正在显著提升,这类技术能够显著提高商业运营的效率,并促进业绩的稳步增长。硅基流动研发的图片/视频生成推理引擎OneDiff能够以高性能和低成本的优势为AIGC应用程序提供支持。因其加速性能突出、部署简单、稳定性高的特点,南京一言万相网络科技有限公司的图生生团队在实...

2024-03-26 12:43:06 2839

原创 强化学习之父Richard Sutton:通往AGI的另一种可能

2019年,强化学习之父、阿尔伯塔大学教授Richard Sutton发表了后来被AI领域奉为经典的The Bitter lesson,这也是OpenAI研究员的必读文章。在这篇文章中,Richard指出,过去 70 年来,AI 研究的一大教训是过于重视人类既有经验和知识,而他认为最大的解决之道是摒弃人类在特定领域的知识,利用大规模算力才是王道。这一思想很快得到了OpenAI首席科学家Ilya S...

2024-03-21 08:03:51 4877

原创 AIGC开发者的效率利器:OneDiff让图片/视频生成加速3倍

OpenAI的视频生成模型Sora爆火一个多月,有关Diffusion Model的解析和探讨还在持续。近日,在硅基流动、EPIC、Datawhale主办的《多模态时代已至,Diffusion Model怎么玩儿?》活动中,硅基流动的OneDiff作者之一姚迟对图片/视频生成推理加速进行了全面介绍。自开源Stable Diffusion模型发布以来,OneDiff就以其卓越的性能长期保持领先。目前...

2024-03-21 08:03:51 644

原创 揭示语言大模型的采样过程

机器学习模型具有概率性。对于同一个问题,机器可能会给出不同回答,以“世界上最棒的美食是什么?”这一问题为例。假如我们间隔一分钟,对同一个人提问,这个人两次给出的回答应该是相同的;但如果我们分两次问模型同样的问题,它给出的答案可能会发生变化。如果模型认为越南菜最好吃的概率为70%,意大利菜最好吃的概率为30%,那么相应的,模型会有70...

2024-03-15 08:36:17 4811

原创 好久不见!OneFlow 1.0全新版本上线

好久不见。今天是 OneFlow 开源的第 1320天。与 OneFlow 框架的创作者们一样,过去一年,它也经历了过山车般的命运。好在,即使在下坡潜伏期依然被社区用户关注和使用,作为它的创作者,我们为此感到欣慰——这也是它还在更迭的价值和意义所在。终于,OneFlow 迎来了一个新的里程碑。距离上一次版本发布一年后,我们很高兴发布全新的 OneFlow v1.0.0 版本。本次更新共 447 ...

2024-03-12 09:49:01 4252

原创 有奖征集|与OneDiff加速前行,GenAI探索触手可及

生成式AI的发展不仅在改变我们的生活方式,也在重塑我们的工作模式。然而,GenAI的推理成本依然是阻碍应用创新的重大挑战。为此,针对图片/视频生成应用,硅基流动推出了专用推理加速引擎OneDiff。自开源版发布以来,OneDiff长期保持着业内领先的性能加速优势,大大降低了模型应用成本,并赢得了众多应用开发者和企业客户的青睐。现在,硅基流动正发起OneDiff应用案例征集活动,无论你是企业客户还是...

2024-03-07 08:58:57 656

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除