前沿技术
文章平均质量分 92
OneFlow深度学习框架
这个作者很懒,什么都没留下…
展开
-
LLM长上下文RAG能力实测:GPT o1 vs Gemini
本文深入探讨了检索增强生成(RAG)技术在AI工作流中的应用,特别是OpenAI的o1系列模型和Google的Gemini 1.5模型在长上下文RAG任务中的性能,分析了不同模型在长上下文RAG任务中的失败模式,为开发者构建RAG系统提供了宝贵参考。(本文由OneFlow编译发布,转载请联系授权。原文:https://www.databricks.com/blog/long-context-rag...原创 2024-11-12 08:03:55 · 373 阅读 · 0 评论 -
从通才到专家:AI系统向复合AI的演变
复合AI系统凭借其多模型、多工具的协同方式,展现出传统单一AI难以匹敌的应对复杂问题的能力,引发了广泛关注和讨论。本文从单体架构和微服务架构的演变切入,揭示了复合AI系统如何通过模块化的方式优化任务执行,提升灵活性与精准度。以Databricks Mosaic AI平台为例,作者Yared Gudeta分析了复合AI在维护系统中的应用实例,展示了该系统如何整合向量嵌入、图数据库和大语言模型以高效解...原创 2024-11-01 13:03:47 · 599 阅读 · 0 评论 -
70B大模型训练秘方③:1000次超参数优化实验的发现
今年6月,大模型公司Imbue依托它们自主构建的基础设施,从零起步,成功训练出一个70B参数的模型,其在相关推理任务上的卓越表现远零样本GPT-4o。在《70B大模型训练秘方① :数据集创建与评估》一文中,他们分享了用于模型评估的数据集,包含11个公共数据集的高质量子集,以及一套用于代码理解的原始问题。重点分享了为什么选择这些特定的数据集,以及数据创建过程和实际数据集的详细信息。在《从裸机到70B...原创 2024-11-05 08:04:32 · 892 阅读 · 0 评论 -
用初中数学理解LLM工作原理
本文将从基础开始讨论大语言模型(LLM)的工作原理——假设你只知道如何对两个数字进行加法和乘法。首先,作者Rohit Patel会从构建一个简单的生成式人工智能出发,逐步阐释理解现代LLM和Transformer架构所需的所有知识。本文将剔除机器学习中所有花哨语言和术语,将一切简单地表示为数字。(本文作者Rohit Patel是Meta的数据科学家。本文由OneFlow编译发布,转载请联系授权。原...原创 2024-10-30 08:04:04 · 1123 阅读 · 0 评论 -
10倍工程师的高效编码工具:Cursor x SiliconCloud x DeepSeek v2.5
Cursor 是一个基于 VSCode 开发的 AI 代码编辑器,提供强大的 AI 代码编辑能力。本文介绍如何利用 Cursor 的自定义模型功能,在 Cursor 中使用硅基流动 SiliconCloud 的 API,接入DeepSeek v2.5、Qwen2.5等大模型,通过高效、价格亲民的 API 服务,数量级提升你的编码能力。本文还讨论了 Cursor 免费版的常见限制以及对应的...原创 2024-10-18 08:03:14 · 2606 阅读 · 0 评论 -
最大的顶级数据集开源,HuggingFace排名第一,可创建15万亿Token
去年 12 月,生成式 AI 公司 Petuum 以及穆罕默德·本·扎耶德人工智能大学(MBZUAI)共同推出了一个用于创建开源大型语言模型的项目LLM360,旨在提高开源代码的透明度,公开整个 LLM 训练过程、代码、数据和最佳实践,以帮助开发人员更轻松、更快捷、更经济地创建开源大型语言模型,实现...原创 2024-10-19 12:05:37 · 1492 阅读 · 0 评论 -
从裸机到70B大模型②:基础设施设置与脚本
今年6月,大模型公司Imbue依托它们自主构建的基础设施,从零起步,成功训练出一个70亿参数的模型,其在相关推理任务上的卓越表现远零样本GPT-4o。在《70B大模型训练秘方① :数据集创建与评估》一文中,他们分享了用于模型评估的数据集,包含11个公共数据集的高质量子集,以及一套用于代码理解的原...原创 2024-09-29 13:03:54 · 2263 阅读 · 0 评论 -
拆解生成式AI平台:基础组件、功能及实现
本文作者在研究了诸多公司如何部署生成式AI应用之后,发现并归纳了这些平台的相似之处。本文概述了生成式AI平台的常见组件、功能以及实现方法。(本文作者Chip Huyen是实时机器学习平台Claypot AI的联合创始人。本文经授权后由OneFlow编译发布,转载请联系授权。https://huyenchip.com/2024/07/25/genai-platform.html)原创 2024-09-05 09:03:31 · 1042 阅读 · 0 评论 -
70B大模型训练秘方① :数据集创建与评估
今年6月,大模型公司Imbue预训练了一个70B参数的模型,并在多选推理基准上进行了微调。在这些基准上,Imbue微调的模型超越了GPT-4o zero-shot表现(该模型未在这些基准上进行微调)。Imbue的微调模型,基于2万亿个Token进行预训练,其性能也接近于在超过7倍数据量上预训练的Llama3 70B微调模型的性能。由于他们在没有使用思维链的情况下评估了GPT-4o zero-sho...原创 2024-08-28 09:03:33 · 4255 阅读 · 0 评论 -
如何准确且可解释地评估大模型量化效果?
随着Llama 3.1的发布,关于不同量化方法的优缺点的讨论变得相当热烈。模型量化质量的评估一向是个难题,本文将分享Fireworks如何处理量化以及评估其中的权衡。以下是本文内容摘要:量化没有通用的标准——量化技术多种多样,模型中可以量化的部分也各不相同。原创 2024-08-09 11:54:44 · 1682 阅读 · 0 评论 -
超越SD3,比肩MJ v6,文生图模型FLUX.1开源
近日,图片生成模型FLUX.1引爆了AIGC社区,其在视觉质量、图像细节和输出多样性等方面性能优越,输出极佳的图片生成效果。FLUX.1系列模型由Black Forest Labs开源,创始人Robin Rombach是Stable Diffusion的两位主要作者之一。所有公开的FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构,并扩展到12B参数。这些模型经过特别微调,保...原创 2024-08-08 18:06:01 · 2270 阅读 · 1 评论 -
国产大模型新标杆!比肩GPT4,DeepSeek V2重磅升级
近日,深度求索团队更新了DeepSeek-V2模型,新版本DeepSeek-V2-Chat模型推理能力有了极大提升。尤其在数学解题、逻辑推理、编程、指令跟随、Json格式输出不同维度上,最高有16%的性能提升。在Arena-Hard测评中,DeepSeek-V2-Chat与GPT-4-0314的对战胜率从41.6%提升到了68.3%。DeepSeek-V2-Chat模型的角色扮演能力显著增强,可以...原创 2024-07-02 18:10:13 · 4998 阅读 · 0 评论 -
文生图王者登场:Stable Diffusion 3 Medium正式开源
今年2月,Stability.ai发布了Stable Diffusion 3预览版,在多主题提示、图像质量和拼写能力方面具有显著的性能提升。Stable Diffusion 3是一个系列模型,参数量从800M到8B不等。6月12日,Stability AI正式开源了Stable Diffusion 3 Medium(2B),这是迄今为止最先进的文生图开源模型,被视为生成式AI发展的一个重要里程碑。...原创 2024-06-15 09:04:13 · 5659 阅读 · 0 评论 -
OpenAI停服,国产大模型免费用!开发者Token自由实现了
昨天,OpenAI 突然宣布终止对中国提供 API 服务,进一步收紧国内开发者访问 GPT 等高水平大模型。国内开发者真是太难了。好在,随着开源大模型水平越来越高,开发者已经有很多不错的 “平替”,比如 Qwen2、DeepSeek V2 等模型。为了给开发者提供更快、更便宜、更全面、体验更丝滑的开源大模型 API,AI Infra 领域的专业选手硅基流动(SiliconFlow)上...原创 2024-06-26 08:32:37 · 7715 阅读 · 1 评论 -
击败GPT4-Turbo,最强开源代码模型DeepSeek-Coder-V2问世
6月17日,深度求索正式开源了DeepSeek-Coder-V2模型。根据相关评测榜单,这是全球首个在代码、数学能力上超越GPT-4-Turbo、Claude3-Opus、Gemini-1.5Pro等的开源代码大模型。DeepSeek-Coder-V2包含236B与16B两种参数规模,对编程语言的支持从86种扩展到338种。据官方博客介绍,DeepSeek-Coder-V2沿用DeepSeek-V...原创 2024-06-19 10:01:52 · 4955 阅读 · 0 评论 -
SiliconCloud上新:GLM-4-9B,通用能力超越Llama 3
今天,智谱发布了第四代 GLM 系列开源模型:GLM-4-9B。GLM-4-9B 系列模型包括:基础版本 GLM-4-9B(8K)、对话版本 GLM-4-9B-Chat(128K)、超长上下文版本 GLM-4-9B-Chat-1M(1M)和多模态版本 GLM-4V-9B-Chat(8K)。GLM-4-9B 模型具备了更强大的推理性能、更长的上下文处理能力、多语言、多模态和 All Tools 等突...原创 2024-06-06 08:56:54 · 2126 阅读 · 0 评论 -
最强开源大模型面世:阿里发布Qwen2
今天凌晨,阿里巴巴通义千问团队发布了Qwen2系列开源模型。该系列模型包括5个尺寸的预训练和指令微调模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。随即,硅基流动团队在云服务平台SiliconCloud上线了Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B模型。欢迎来玩儿:https://cloud.sili...原创 2024-06-07 09:11:25 · 4797 阅读 · 0 评论 -
LLM Serving有效吞吐量的最大化实现
如今的LLM应用具有多样化的时延要求。例如,聊天机器人可能需要快速的初始响应(例如,少于0.2秒),但在解码速度上只需要匹配人类阅读速度,而代码补全则需要快速的端到端生成时间,以实现实时代码建议。本文说明了优化吞吐量(throughput)的现有serving系统,在时延标准下并不是最优选择。作者主张使用有效吞吐量(goodput),即符合服务等级目标(SLO)的每秒完成请求数量,作为衡量LLM ...原创 2024-05-15 08:17:29 · 2647 阅读 · 0 评论 -
GPT4o“全能”模型发布;2人AI团队被收购;3款AI搜索引擎
1. OpenAI发布GPT4o,能实时语音视频交互今天,OpenAI发布了最新的旗舰版模型GPT4o(“o”代表全能)。这是一个跨音频、视觉和文本的端到端的新模型,可以在平均320ms内对人类的语音输入进行响应,而此前ChatGPT的平均响应时间为2.8s(GPT-3.5)和5.4s(GPT-4)。性能方面,GPT4o在英语文本和代码上的性能与GPT-4 Turbo相匹配,同时API的速度比GP...原创 2024-05-14 09:09:09 · 912 阅读 · 0 评论 -
LLM推理入门指南③:剖析模型性能
在本系列文章《LLM推理入门指南①:文本生成的初始化与解码阶段》中,作者对Transformer解码器的文本生成算法进行了高层次概述,着重介绍了两个阶段:提示的处理阶段和逐个生成补全词元的多步生成阶段。在上一篇文章《LLM推理入门指南②:深入解析KV Cache》中,深入探讨了KV Cache优化。本文将转变方向,探索可能影响机器学习模型速度的不同性能瓶颈。本文所详细介绍的概念广泛适用于任何ML模...原创 2024-05-07 08:03:53 · 2718 阅读 · 0 评论 -
终极GPU互联技术探索:消失的内存墙
《AI算力的阿喀琉斯之踵:内存墙》一文曾指出,过去20年,硬件算力峰值增长了90000倍,但是DRAM/硬件互连带宽只增长了30倍。在这个趋势下,特别是芯片内或者芯片间的数据传输会迅速成为训练大规模AI模型的瓶颈。上个月,在英伟达GTC 2024大会上发布了“更大的GPU”:新一代Blackwell 架构的B200和GB200 GPU ,其中B200采用台积电4nm工艺,晶体管数量高达2080亿,...原创 2024-05-02 08:33:21 · 5101 阅读 · 0 评论 -
OneDiff 1.0发布!生产环境稳定加速SD/SVD模型
自Stable Diffusion模型发布以来,硅基流动开发的OneDiff图片/视频推理加速引擎以其卓越的性能、“一键”加速的易用性、以及对最新算法和应用框架的快速支持,深受开发者和用户的喜爱。今天,OneDiff v1.0.0正式发布。本次版本更新解决了此前版本v0.13中的问题,主要包括以下新特性、改进以及若干Bug修复:OneDiff质量评估重复利用编译图改进对Playground v2....原创 2024-04-18 11:20:10 · 1964 阅读 · 0 评论 -
Stable Diffusion XL优化终极指南
如何在自己的显卡上获得SDXL的最佳质量和性能,以及如何选择适当的优化方法和工具,这一让GenAI用户倍感困惑的问题,业内一直没有一份清晰而详尽的评测报告可供参考。直到全栈开发者Félix San出手。在本文中,Félix介绍了相关SDXL优化的方法论、基础优化、Pipeline优化以及组件和参数优化。值得一提的是,基于实测表现,他高度评价并推荐了由硅基流动研发的图片/视频推理加速引擎OneDif...原创 2024-04-16 08:20:25 · 4674 阅读 · 0 评论 -
揭示GPU上的批处理策略
本文深入探讨了批处理在现代GPU上的工作原理,以及它是如何影响深度学习模型的推理速度,基于此,作者为模型优化提供了实用指导。通过优化批处理策略,研究人员和工程师可以更有效地利用计算资源,提高模型的推理效率。(本文作者为机器学习研究员Finbarr Timbers,他曾是DeepMind的工程师。本文由OneFlow编译发布,转载请联系授权。原文:https://www.artfintel.com/...原创 2024-04-04 08:11:26 · 3120 阅读 · 1 评论 -
LLM推理入门指南②:深入解析KV缓存
在本系列文章《LLM推理入门指南①:文本生成的初始化与解码阶段》中,作者对Transformer解码器的文本生成算法进行了高层次概述,着重介绍了两个阶段:单步初始化阶段,即提示的处理阶段,和逐个生成补全词元的多步生成阶段。本文进一步探讨了LLM推理的挑战 —— 第一大挑战是,注意力层(也称为自注意力层)与总序列长度(提示词元和生成补全词元)的计算成本呈二次方扩展的问题。幸运的是,生成步骤之间的许多...原创 2024-03-28 08:03:52 · 4346 阅读 · 1 评论 -
揭示语言大模型的采样过程
机器学习模型具有概率性。对于同一个问题,机器可能会给出不同回答,以“世界上最棒的美食是什么?”这一问题为例。假如我们间隔一分钟,对同一个人提问,这个人两次给出的回答应该是相同的;但如果我们分两次问模型同样的问题,它给出的答案可能会发生变化。如果模型认为越南菜最好吃的概率为70%,意大利菜最好吃的概率为30%,那么相应的,模型会有70...原创 2024-03-15 08:36:17 · 5000 阅读 · 0 评论 -
混合输入矩阵乘法的性能优化
AI驱动的技术正逐渐融入人们日常生活的各个角落,有望提高人们获取知识的能力,并提升整体生产效率。语言大模型(LLM)正是这些应用的核心。LLM对内存的需求很高,通常需要专用的硬件加速器,以高效地提供数百亿亿次浮点运算(Exaflops级别)的计算能力。本文将展示如何通过更有效地利用内存来解决计算方面的挑战。LLM中的大部分内存和...原创 2024-03-06 08:03:19 · 3808 阅读 · 0 评论 -
LLM推理入门指南①:文本生成的初始化与解码阶段
随着生成式AI的火热发展,高企的语言大模型(LLM)推理性能和成本成为阻碍其大规模应用的关键挑战。LLM推理是指使用仅解码器Transformer模型生成词元,而大多数挑战及其相关的解决方法都来自这种特定的架构和用例。本系列文章将深入探讨LLM推理的不同层面及其挑战,同时,其中提供的有价值见解也适用于Transformer编码器模型的推理。通过本系列内容的学习,希望帮助读者了解与LLM推理密切相关...原创 2024-02-23 08:59:10 · 4040 阅读 · 0 评论 -
从头理解与编码LLM的自注意力机制
本文将介绍Transformer架构和GPT-4、LLaMA等语言大模型中使用的自注意力机制。自注意力和相关机制是LLM的核心组件,使用LLM时,了解这些机制十分有必要。本文还提供了使用Python和PyTorch从零开始编码自注意力机制的详细指南,并演示其工作方式,帮助初学者和经验丰富的从业者深入理解它在LLM中的作用。本文作者是机器学习和人工智能研究员Sebastian Raschka,目前担...原创 2024-02-08 08:04:35 · 4082 阅读 · 0 评论 -
语言大模型的浮点运算分配
本文通过实证分析展示了实际LLM模型的FLOPS分配情况,并与理论分析进行对比。通过理论和实证相结合的方式,本文为理解和优化语言大模型的性能提供了有益见解。作者Finbarr Timbers是一名机器学习研究员,曾就职于DeepMind。(以下内容由OneFlow编译发布,转载请联系授权。原文:https://www.artfintel.com/p/where-do-llms-spend-thei...原创 2024-02-04 13:00:00 · 3556 阅读 · 0 评论 -
OneFlow技术年货:800+页免费“大模型”电子书
2023年,无论对人工智能领域还是整个科技界而言,“ChatGPT”无疑是本年度第一关键词。这一年,在OneFlow社区发布的100多篇文章里,涉及大量与ChatGPT相关的大模型类技术解读、前瞻性观点以及开源故事,另有部分与深度学习框架相关的内容。在内容快餐化时代,这些文章或许很长,但对于渴望深度了解前沿技术的人不可或缺。很高兴不断有新用户通过这些优质内容加入OneFlow社区,并给予我们鼓励和...原创 2024-01-01 09:31:26 · 4935 阅读 · 0 评论 -
20篇NeurIPS论文精选:语言大模型的六大趋势
本文总结了NeurIPS 2023大会上与自然语言处理相关的20篇精彩论文。通过这些论文,作者主要观察到了LLM的六个主要趋势,这些论文涉及重新思考LLM的基本假设,并为其内在运作提供了新的见解和观点。本文作者Sebastian Ruder是Google Research研究员,发表了多篇机器学习和自然语言处理领域的顶级论文。(以下内容由OneFlow编译发布,转载请联系授权。原文:https:/...原创 2023-12-27 09:49:14 · 5893 阅读 · 0 评论 -
ChatGPT一周年:开源语言大模型的冲击
自2022年末发布后,ChatGPT给人工智能的研究和商业领域带来了巨大变革。通过有监督微调和人类反馈的强化学习,模型可以回答人类问题,并在广泛的任务范围内遵循指令。在获得这一成功之后,人们对LLM的兴趣不断增加,新的LLM在学术界和工业界不断涌现,其中包括许多专注于LLM的初创公司。尽管闭源LLM(如OpenAI的GPT、Anthropic的Claude)通常优于其对应的开源模型,但后者的进展十...原创 2023-12-20 09:52:55 · 11920 阅读 · 0 评论 -
迈向100倍加速:全栈Transformer推理优化
假设有两家公司,它们拥有同样强大的模型。公司A可以用1个GPU为10个用户提供模型,而公司B可以用1个GPU为20个用户提供模型。从长远来看,谁会在竞争中获胜呢?答案是公司B,因为它的成本更低。假设一位研究人员提出了一种超级聪明的解码方法:这种方法拥有巧妙的算法和扎实的数学基础,但无法与FlashAttention兼容。它能在生产...原创 2023-12-13 13:45:40 · 6372 阅读 · 0 评论 -
语言大模型的推理技巧
本文探讨了一系列语言大模型的推理优化技巧,涵盖KV缓存、量化和稀疏性等方法,并分享了如何有效实施这些技术。对于想要优化Transformer模型,以期提升推理速度或效率的人来说值得一读。本文作者为机器学习研究员Finbarr Timbers,他曾是DeepMind的工程师。(本文由OneFlow编译发布,转载请联系授权。原文:https://www.artfintel.com/p/transfor...原创 2023-12-12 09:09:03 · 5113 阅读 · 0 评论 -
LoRA微调语言大模型的实用技巧
目前,微调定制化LLM会耗费工程师的大量时间和精力,而选择合适的微调方法以及掌握相关技巧可以做到事半功倍。此前,在《微调语言大模型选LoRA还是全参数?基于LLaMA 2深度分析》中,文中对比了全参数微调和LoRA各自的优势和劣势。而在《LoRA和QLoRA微调语言大模型:数百次实验后的见解》中,本文作者讨论了使用LoRA和QLoRA对LLM进行微调的实用见解。在本文中,作者进一步分享了使用LoR...原创 2023-12-08 08:04:01 · 4071 阅读 · 0 评论 -
语言大模型的分布式训练与高效微调指南
最近语言大模型(LLM)异常火爆,一个非常特别的开源社区正在探索在消费级硬件上微调、提供服务和进行推理的最佳方式。为满足上述需求,出现了许多出色的开源代码库,以HuggingFace生态系统为中心,这些代码库还包括FastChat、Axolotl和LLama.cpp。本文专注于分布式训练策略的具体细节,特别是DeepSpe...原创 2023-11-29 09:28:25 · 5510 阅读 · 0 评论 -
NCCL源码解析⑦:机器间Channel连接
上节中完成了单机内部的channel搜索,仍然以ringGraph为例的话,相当于在单台机器内部搜索出来了一系列的环,接下来需要将机器之间的环连接起来。为了方便理解,假设两机十六卡的情况下第一台机器的一个ring为:graph->intra: GPU/0 GPU/7 GPU/6 GPU/3 GPU/2 GPU/5 GPU/4 GPU/1graph->int...原创 2023-09-22 08:28:19 · 3181 阅读 · 0 评论 -
NCCL源码解析⑤:路径计算
上节NCCL完成了对机器PCI系统拓扑的建图,其中建好的图如下所示,其中GPU之间是通过NVLink连接起来的。为了方便之后的搜索channel,接下来NCCL会先计算GPU和NIC节点到其他任意节点之间的最优路径,以及对应的带宽,即最优路径上所有边的带宽的最小值。那么抽象一下,这个问题可以建模为给定一个无向图,每条边有一个权值,给定查询(u, v),求节点...原创 2023-07-20 08:03:35 · 4267 阅读 · 0 评论 -
开源语言大模型演进史:向LLaMA 2看齐
本文是开源 LLM 发展史系列文章的第三部分。此前,第一部分《开源语言大模型演进史:早期革新》回顾了创建开源 LLM 的最初尝试。第二部分《开源语言大模型演进史:高质量基础模型竞赛》研究了目前可用的最受欢迎的开源基础模型(即已进行预训练但尚未微调或对齐的语言模型)。本文将介绍如何通过微调/对齐那些更出色的LLaMA-2等开源模型来提升它们的效果,并缩小开源和私有LLM之间的差距。(本文作者为Reb...原创 2023-11-10 08:03:23 · 3885 阅读 · 0 评论
分享