前沿技术
文章平均质量分 92
OneFlow深度学习框架
这个作者很懒,什么都没留下…
展开
-
70B大模型训练秘方① :数据集创建与评估
今年6月,大模型公司Imbue预训练了一个70B参数的模型,并在多选推理基准上进行了微调。在这些基准上,Imbue微调的模型超越了GPT-4o zero-shot表现(该模型未在这些基准上进行微调)。Imbue的微调模型,基于2万亿个Token进行预训练,其性能也接近于在超过7倍数据量上预训练的Llama3 70B微调模型的性能。由于他们在没有使用思维链的情况下评估了GPT-4o zero-sho...原创 2024-08-28 09:03:33 · 2904 阅读 · 0 评论 -
如何准确且可解释地评估大模型量化效果?
随着Llama 3.1的发布,关于不同量化方法的优缺点的讨论变得相当热烈。模型量化质量的评估一向是个难题,本文将分享Fireworks如何处理量化以及评估其中的权衡。以下是本文内容摘要:量化没有通用的标准——量化技术多种多样,模型中可以量化的部分也各不相同。原创 2024-08-09 11:54:44 · 1476 阅读 · 0 评论 -
超越SD3,比肩MJ v6,文生图模型FLUX.1开源
近日,图片生成模型FLUX.1引爆了AIGC社区,其在视觉质量、图像细节和输出多样性等方面性能优越,输出极佳的图片生成效果。FLUX.1系列模型由Black Forest Labs开源,创始人Robin Rombach是Stable Diffusion的两位主要作者之一。所有公开的FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构,并扩展到12B参数。这些模型经过特别微调,保...原创 2024-08-08 18:06:01 · 1994 阅读 · 1 评论 -
国产大模型新标杆!比肩GPT4,DeepSeek V2重磅升级
近日,深度求索团队更新了DeepSeek-V2模型,新版本DeepSeek-V2-Chat模型推理能力有了极大提升。尤其在数学解题、逻辑推理、编程、指令跟随、Json格式输出不同维度上,最高有16%的性能提升。在Arena-Hard测评中,DeepSeek-V2-Chat与GPT-4-0314的对战胜率从41.6%提升到了68.3%。DeepSeek-V2-Chat模型的角色扮演能力显著增强,可以...原创 2024-07-02 18:10:13 · 4820 阅读 · 0 评论 -
文生图王者登场:Stable Diffusion 3 Medium正式开源
今年2月,Stability.ai发布了Stable Diffusion 3预览版,在多主题提示、图像质量和拼写能力方面具有显著的性能提升。Stable Diffusion 3是一个系列模型,参数量从800M到8B不等。6月12日,Stability AI正式开源了Stable Diffusion 3 Medium(2B),这是迄今为止最先进的文生图开源模型,被视为生成式AI发展的一个重要里程碑。...原创 2024-06-15 09:04:13 · 5438 阅读 · 0 评论 -
OpenAI停服,国产大模型免费用!开发者Token自由实现了
昨天,OpenAI 突然宣布终止对中国提供 API 服务,进一步收紧国内开发者访问 GPT 等高水平大模型。国内开发者真是太难了。好在,随着开源大模型水平越来越高,开发者已经有很多不错的 “平替”,比如 Qwen2、DeepSeek V2 等模型。为了给开发者提供更快、更便宜、更全面、体验更丝滑的开源大模型 API,AI Infra 领域的专业选手硅基流动(SiliconFlow)上...原创 2024-06-26 08:32:37 · 7388 阅读 · 1 评论 -
击败GPT4-Turbo,最强开源代码模型DeepSeek-Coder-V2问世
6月17日,深度求索正式开源了DeepSeek-Coder-V2模型。根据相关评测榜单,这是全球首个在代码、数学能力上超越GPT-4-Turbo、Claude3-Opus、Gemini-1.5Pro等的开源代码大模型。DeepSeek-Coder-V2包含236B与16B两种参数规模,对编程语言的支持从86种扩展到338种。据官方博客介绍,DeepSeek-Coder-V2沿用DeepSeek-V...原创 2024-06-19 10:01:52 · 4697 阅读 · 0 评论 -
SiliconCloud上新:GLM-4-9B,通用能力超越Llama 3
今天,智谱发布了第四代 GLM 系列开源模型:GLM-4-9B。GLM-4-9B 系列模型包括:基础版本 GLM-4-9B(8K)、对话版本 GLM-4-9B-Chat(128K)、超长上下文版本 GLM-4-9B-Chat-1M(1M)和多模态版本 GLM-4V-9B-Chat(8K)。GLM-4-9B 模型具备了更强大的推理性能、更长的上下文处理能力、多语言、多模态和 All Tools 等突...原创 2024-06-06 08:56:54 · 2049 阅读 · 0 评论 -
最强开源大模型面世:阿里发布Qwen2
今天凌晨,阿里巴巴通义千问团队发布了Qwen2系列开源模型。该系列模型包括5个尺寸的预训练和指令微调模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。随即,硅基流动团队在云服务平台SiliconCloud上线了Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B模型。欢迎来玩儿:https://cloud.sili...原创 2024-06-07 09:11:25 · 4625 阅读 · 0 评论 -
LLM Serving有效吞吐量的最大化实现
如今的LLM应用具有多样化的时延要求。例如,聊天机器人可能需要快速的初始响应(例如,少于0.2秒),但在解码速度上只需要匹配人类阅读速度,而代码补全则需要快速的端到端生成时间,以实现实时代码建议。本文说明了优化吞吐量(throughput)的现有serving系统,在时延标准下并不是最优选择。作者主张使用有效吞吐量(goodput),即符合服务等级目标(SLO)的每秒完成请求数量,作为衡量LLM ...原创 2024-05-15 08:17:29 · 2006 阅读 · 0 评论 -
GPT4o“全能”模型发布;2人AI团队被收购;3款AI搜索引擎
1. OpenAI发布GPT4o,能实时语音视频交互今天,OpenAI发布了最新的旗舰版模型GPT4o(“o”代表全能)。这是一个跨音频、视觉和文本的端到端的新模型,可以在平均320ms内对人类的语音输入进行响应,而此前ChatGPT的平均响应时间为2.8s(GPT-3.5)和5.4s(GPT-4)。性能方面,GPT4o在英语文本和代码上的性能与GPT-4 Turbo相匹配,同时API的速度比GP...原创 2024-05-14 09:09:09 · 851 阅读 · 0 评论 -
LLM推理入门指南③:剖析模型性能
在本系列文章《LLM推理入门指南①:文本生成的初始化与解码阶段》中,作者对Transformer解码器的文本生成算法进行了高层次概述,着重介绍了两个阶段:提示的处理阶段和逐个生成补全词元的多步生成阶段。在上一篇文章《LLM推理入门指南②:深入解析KV Cache》中,深入探讨了KV Cache优化。本文将转变方向,探索可能影响机器学习模型速度的不同性能瓶颈。本文所详细介绍的概念广泛适用于任何ML模...原创 2024-05-07 08:03:53 · 2641 阅读 · 0 评论 -
终极GPU互联技术探索:消失的内存墙
《AI算力的阿喀琉斯之踵:内存墙》一文曾指出,过去20年,硬件算力峰值增长了90000倍,但是DRAM/硬件互连带宽只增长了30倍。在这个趋势下,特别是芯片内或者芯片间的数据传输会迅速成为训练大规模AI模型的瓶颈。上个月,在英伟达GTC 2024大会上发布了“更大的GPU”:新一代Blackwell 架构的B200和GB200 GPU ,其中B200采用台积电4nm工艺,晶体管数量高达2080亿,...原创 2024-05-02 08:33:21 · 4840 阅读 · 0 评论 -
OneDiff 1.0发布!生产环境稳定加速SD/SVD模型
自Stable Diffusion模型发布以来,硅基流动开发的OneDiff图片/视频推理加速引擎以其卓越的性能、“一键”加速的易用性、以及对最新算法和应用框架的快速支持,深受开发者和用户的喜爱。今天,OneDiff v1.0.0正式发布。本次版本更新解决了此前版本v0.13中的问题,主要包括以下新特性、改进以及若干Bug修复:OneDiff质量评估重复利用编译图改进对Playground v2....原创 2024-04-18 11:20:10 · 1895 阅读 · 0 评论 -
Stable Diffusion XL优化终极指南
如何在自己的显卡上获得SDXL的最佳质量和性能,以及如何选择适当的优化方法和工具,这一让GenAI用户倍感困惑的问题,业内一直没有一份清晰而详尽的评测报告可供参考。直到全栈开发者Félix San出手。在本文中,Félix介绍了相关SDXL优化的方法论、基础优化、Pipeline优化以及组件和参数优化。值得一提的是,基于实测表现,他高度评价并推荐了由硅基流动研发的图片/视频推理加速引擎OneDif...原创 2024-04-16 08:20:25 · 4409 阅读 · 0 评论 -
揭示GPU上的批处理策略
本文深入探讨了批处理在现代GPU上的工作原理,以及它是如何影响深度学习模型的推理速度,基于此,作者为模型优化提供了实用指导。通过优化批处理策略,研究人员和工程师可以更有效地利用计算资源,提高模型的推理效率。(本文作者为机器学习研究员Finbarr Timbers,他曾是DeepMind的工程师。本文由OneFlow编译发布,转载请联系授权。原文:https://www.artfintel.com/...原创 2024-04-04 08:11:26 · 3058 阅读 · 1 评论 -
LLM推理入门指南②:深入解析KV缓存
在本系列文章《LLM推理入门指南①:文本生成的初始化与解码阶段》中,作者对Transformer解码器的文本生成算法进行了高层次概述,着重介绍了两个阶段:单步初始化阶段,即提示的处理阶段,和逐个生成补全词元的多步生成阶段。本文进一步探讨了LLM推理的挑战 —— 第一大挑战是,注意力层(也称为自注意力层)与总序列长度(提示词元和生成补全词元)的计算成本呈二次方扩展的问题。幸运的是,生成步骤之间的许多...原创 2024-03-28 08:03:52 · 4112 阅读 · 1 评论 -
揭示语言大模型的采样过程
机器学习模型具有概率性。对于同一个问题,机器可能会给出不同回答,以“世界上最棒的美食是什么?”这一问题为例。假如我们间隔一分钟,对同一个人提问,这个人两次给出的回答应该是相同的;但如果我们分两次问模型同样的问题,它给出的答案可能会发生变化。如果模型认为越南菜最好吃的概率为70%,意大利菜最好吃的概率为30%,那么相应的,模型会有70...原创 2024-03-15 08:36:17 · 4883 阅读 · 0 评论 -
混合输入矩阵乘法的性能优化
AI驱动的技术正逐渐融入人们日常生活的各个角落,有望提高人们获取知识的能力,并提升整体生产效率。语言大模型(LLM)正是这些应用的核心。LLM对内存的需求很高,通常需要专用的硬件加速器,以高效地提供数百亿亿次浮点运算(Exaflops级别)的计算能力。本文将展示如何通过更有效地利用内存来解决计算方面的挑战。LLM中的大部分内存和...原创 2024-03-06 08:03:19 · 3758 阅读 · 0 评论 -
LLM推理入门指南①:文本生成的初始化与解码阶段
随着生成式AI的火热发展,高企的语言大模型(LLM)推理性能和成本成为阻碍其大规模应用的关键挑战。LLM推理是指使用仅解码器Transformer模型生成词元,而大多数挑战及其相关的解决方法都来自这种特定的架构和用例。本系列文章将深入探讨LLM推理的不同层面及其挑战,同时,其中提供的有价值见解也适用于Transformer编码器模型的推理。通过本系列内容的学习,希望帮助读者了解与LLM推理密切相关...原创 2024-02-23 08:59:10 · 3905 阅读 · 0 评论 -
从头理解与编码LLM的自注意力机制
本文将介绍Transformer架构和GPT-4、LLaMA等语言大模型中使用的自注意力机制。自注意力和相关机制是LLM的核心组件,使用LLM时,了解这些机制十分有必要。本文还提供了使用Python和PyTorch从零开始编码自注意力机制的详细指南,并演示其工作方式,帮助初学者和经验丰富的从业者深入理解它在LLM中的作用。本文作者是机器学习和人工智能研究员Sebastian Raschka,目前担...原创 2024-02-08 08:04:35 · 3934 阅读 · 0 评论 -
语言大模型的浮点运算分配
本文通过实证分析展示了实际LLM模型的FLOPS分配情况,并与理论分析进行对比。通过理论和实证相结合的方式,本文为理解和优化语言大模型的性能提供了有益见解。作者Finbarr Timbers是一名机器学习研究员,曾就职于DeepMind。(以下内容由OneFlow编译发布,转载请联系授权。原文:https://www.artfintel.com/p/where-do-llms-spend-thei...原创 2024-02-04 13:00:00 · 3520 阅读 · 0 评论 -
OneFlow技术年货:800+页免费“大模型”电子书
2023年,无论对人工智能领域还是整个科技界而言,“ChatGPT”无疑是本年度第一关键词。这一年,在OneFlow社区发布的100多篇文章里,涉及大量与ChatGPT相关的大模型类技术解读、前瞻性观点以及开源故事,另有部分与深度学习框架相关的内容。在内容快餐化时代,这些文章或许很长,但对于渴望深度了解前沿技术的人不可或缺。很高兴不断有新用户通过这些优质内容加入OneFlow社区,并给予我们鼓励和...原创 2024-01-01 09:31:26 · 4894 阅读 · 0 评论 -
20篇NeurIPS论文精选:语言大模型的六大趋势
本文总结了NeurIPS 2023大会上与自然语言处理相关的20篇精彩论文。通过这些论文,作者主要观察到了LLM的六个主要趋势,这些论文涉及重新思考LLM的基本假设,并为其内在运作提供了新的见解和观点。本文作者Sebastian Ruder是Google Research研究员,发表了多篇机器学习和自然语言处理领域的顶级论文。(以下内容由OneFlow编译发布,转载请联系授权。原文:https:/...原创 2023-12-27 09:49:14 · 5829 阅读 · 0 评论 -
ChatGPT一周年:开源语言大模型的冲击
自2022年末发布后,ChatGPT给人工智能的研究和商业领域带来了巨大变革。通过有监督微调和人类反馈的强化学习,模型可以回答人类问题,并在广泛的任务范围内遵循指令。在获得这一成功之后,人们对LLM的兴趣不断增加,新的LLM在学术界和工业界不断涌现,其中包括许多专注于LLM的初创公司。尽管闭源LLM(如OpenAI的GPT、Anthropic的Claude)通常优于其对应的开源模型,但后者的进展十...原创 2023-12-20 09:52:55 · 11846 阅读 · 0 评论 -
迈向100倍加速:全栈Transformer推理优化
假设有两家公司,它们拥有同样强大的模型。公司A可以用1个GPU为10个用户提供模型,而公司B可以用1个GPU为20个用户提供模型。从长远来看,谁会在竞争中获胜呢?答案是公司B,因为它的成本更低。假设一位研究人员提出了一种超级聪明的解码方法:这种方法拥有巧妙的算法和扎实的数学基础,但无法与FlashAttention兼容。它能在生产...原创 2023-12-13 13:45:40 · 6176 阅读 · 0 评论 -
语言大模型的推理技巧
本文探讨了一系列语言大模型的推理优化技巧,涵盖KV缓存、量化和稀疏性等方法,并分享了如何有效实施这些技术。对于想要优化Transformer模型,以期提升推理速度或效率的人来说值得一读。本文作者为机器学习研究员Finbarr Timbers,他曾是DeepMind的工程师。(本文由OneFlow编译发布,转载请联系授权。原文:https://www.artfintel.com/p/transfor...原创 2023-12-12 09:09:03 · 5012 阅读 · 0 评论 -
LoRA微调语言大模型的实用技巧
目前,微调定制化LLM会耗费工程师的大量时间和精力,而选择合适的微调方法以及掌握相关技巧可以做到事半功倍。此前,在《微调语言大模型选LoRA还是全参数?基于LLaMA 2深度分析》中,文中对比了全参数微调和LoRA各自的优势和劣势。而在《LoRA和QLoRA微调语言大模型:数百次实验后的见解》中,本文作者讨论了使用LoRA和QLoRA对LLM进行微调的实用见解。在本文中,作者进一步分享了使用LoR...原创 2023-12-08 08:04:01 · 4025 阅读 · 0 评论 -
语言大模型的分布式训练与高效微调指南
最近语言大模型(LLM)异常火爆,一个非常特别的开源社区正在探索在消费级硬件上微调、提供服务和进行推理的最佳方式。为满足上述需求,出现了许多出色的开源代码库,以HuggingFace生态系统为中心,这些代码库还包括FastChat、Axolotl和LLama.cpp。本文专注于分布式训练策略的具体细节,特别是DeepSpe...原创 2023-11-29 09:28:25 · 5224 阅读 · 0 评论 -
NCCL源码解析⑦:机器间Channel连接
上节中完成了单机内部的channel搜索,仍然以ringGraph为例的话,相当于在单台机器内部搜索出来了一系列的环,接下来需要将机器之间的环连接起来。为了方便理解,假设两机十六卡的情况下第一台机器的一个ring为:graph->intra: GPU/0 GPU/7 GPU/6 GPU/3 GPU/2 GPU/5 GPU/4 GPU/1graph->int...原创 2023-09-22 08:28:19 · 3136 阅读 · 0 评论 -
NCCL源码解析⑤:路径计算
上节NCCL完成了对机器PCI系统拓扑的建图,其中建好的图如下所示,其中GPU之间是通过NVLink连接起来的。为了方便之后的搜索channel,接下来NCCL会先计算GPU和NIC节点到其他任意节点之间的最优路径,以及对应的带宽,即最优路径上所有边的带宽的最小值。那么抽象一下,这个问题可以建模为给定一个无向图,每条边有一个权值,给定查询(u, v),求节点...原创 2023-07-20 08:03:35 · 4224 阅读 · 0 评论 -
开源语言大模型演进史:向LLaMA 2看齐
本文是开源 LLM 发展史系列文章的第三部分。此前,第一部分《开源语言大模型演进史:早期革新》回顾了创建开源 LLM 的最初尝试。第二部分《开源语言大模型演进史:高质量基础模型竞赛》研究了目前可用的最受欢迎的开源基础模型(即已进行预训练但尚未微调或对齐的语言模型)。本文将介绍如何通过微调/对齐那些更出色的LLaMA-2等开源模型来提升它们的效果,并缩小开源和私有LLM之间的差距。(本文作者为Reb...原创 2023-11-10 08:03:23 · 3846 阅读 · 0 评论 -
微调语言大模型选LoRA还是全参数?基于LLaMA 2深度分析
本文对比了全参数微调和LoRA,并分析了这两种技术各自的优势和劣势。作者使用了三个真实用例来训练LLaMA 2模型,这提供了比较特定任务的性能、硬件要求和训练成本的基准。本文证明了使用LoRA需要在serving效率和模型质量之间做出权衡,而这取决于具体的任务。此外,本文还提供了关于如何通过智能提示技术来稳定LoRA训练的深入见解,并进一步验证了采用较低的学习率可以增强最终模型检查点的可靠性。实验...原创 2023-11-08 08:03:28 · 4910 阅读 · 0 评论 -
ChatGPT训练三阶段与RLHF的威力
在探讨“ChatGPT为什么能够捕捉我们的想象力”的文献中,一般可以看到两种说法:规模化为其提供更多的数据和计算资源;提示界面转向更自然聊天界面的用户体验。然而,人们常忽略了这样一个事实,即:创造像ChatGPT这样的模型需要令人难以置信的技术创造力。其中一个很酷的想法是RLHF(Reinforcement Learning from Human Feedback,人类反馈的强化学习):将强化学习...原创 2023-07-06 08:03:12 · 3399 阅读 · 0 评论 -
NCCL源码解析④:建图过程
上次分析了NCCL对机器PCI系统进行拓扑分析的过程,产出的结果为xml格式,接下来,NCCL会根据这个xml进图的建立过程以便之后进行路径搜索。ncclTopoGetSystem的最后会执行ncclTopoGetSystemFromXml将xml格式转成图格式。ncclResult_t ncclTopoGetSystemFromXml(struct ncc...原创 2023-06-27 08:03:42 · 3230 阅读 · 1 评论 -
大模型的无限上下文与数据集组合艺术
上下文长度曾是GPT-3的最大限制之一。GPT-3最多只能接收4000个词元(3000词,6页),否则就会报错。因此,为处理长文档和提示(prompt),就需要引入 LangChain 等其他检索技术。不过,MosaicML(已被Databricks以约13亿美元收购)在5月初开源的MPT-7B上下文长度可达84000个词...原创 2023-07-27 08:48:55 · 2809 阅读 · 0 评论 -
OneFlow源码解析:基础计算接口Primitive
此前,OneFlow 版本更新博客中的第 5 节对框架的“多设备适配”作了说明,原文摘录如下:OneFlow 提供简洁高效易扩展的硬件抽象层 EP(Execution Provider),以应对适配不同硬件的复杂性。引入硬件抽象层之后,用户无需关注底层硬件和框架的具体实现细节,框架的各个模块无需改动便可以适配新的硬件设备,同时,用户只需按照硬件抽象接口的约定和硬件设备的实际情况,实现...原创 2023-06-02 08:03:05 · 1191 阅读 · 0 评论 -
TorchDynamo初探②:Torch.FX调研和实践
torch.fx 是 PyTorch 官方发布的 Python 到 Python 的代码变换工具。如果你想做 Torch 代码变换,torch.fx 是首选工具。torch.fx 会将 Torch 代码 trace 成 6 种基础的 node 组成的 graph,基于这个 graph 可以方便的做各种变换,变换后的 graph 可以再生成 torch 代码(一个 nn.Mo...原创 2023-09-07 08:03:59 · 2771 阅读 · 0 评论 -
大模型长上下文运行的关键问题
上下文长度的增加是 LLM 的一个显著发展趋势。过去一年,几种长上下文语言模型陆续问世,包括 GPT-4(32k上下文)、MosaicML 的 MPT(65k上下文)、Anthropic 的 Claude(100k上下文)等。然而,扩大 Transformer 的上下文长度是一个挑战,因为其核心的注意力层在时间复杂度和空间复杂度与输入序列长度的平方成正比。一年前,来自斯坦福大学、纽约州立大学布法罗...原创 2023-09-20 09:15:25 · 3082 阅读 · 0 评论 -
NCCL源码解析⑥:Channel搜索
上节讲到已经计算出GPU和NIC节点到其他任意节点的最优路径了,本节看下NCCL中channel的搜索过程。NCCL中channel的概念表示一个通信路径,为了更好地利用带宽和网卡,以及同一块数据可以通过多个channel并发通信,另外后续可以看到一个channel对应了一个GPU SM,所以基于这些原因,NCCL会使用多channel,搜索的过程就是搜索出...原创 2023-08-18 08:20:57 · 3647 阅读 · 0 评论