业界观点
文章平均质量分 92
OneFlow深度学习框架
这个作者很懒,什么都没留下…
展开
-
推算LLM训练的GPU内存需求
本文将分析大语言模型训练的GPU内存需求,主要包括三个方面:训练数十亿参数基于Transformer的LLM时,每个GPU设备需要多少GPU内存;估算内存需求的公式是什么;如果模型无法匹配内存,在实践中应采取哪些措施来减少内存需求。(本文由OneFlow编译发布,转载请联系授权。原文:https://medium.com/@maxshapp/understanding-and-estimating...原创 2024-11-08 08:03:16 · 826 阅读 · 0 评论 -
10个改变日常的大模型隐藏玩法
大模型可以写代码、做客服、帮忙写文章,但这些不过是冰山一角,大模型还有哪些不为人知但实用的用途?最近,关于大模型的隐藏技能在Reddit上引发热议,各种有趣的“武林秘籍”层出不穷。以下是部分大模型玩家眼中被低估的用途:1. 我手头大约有80盘VHS家庭录像带,于是把它们全部转换成了数字格式。然后,我将每段1-4小时的视频通过Whi...原创 2024-10-26 10:33:45 · 1750 阅读 · 0 评论 -
生成式AI的新战场:逻辑推断与推理计算
自生成式AI革命开启以来,研究正推动该领域从"快速思考(即迅速给出预训练的回应)",向“缓慢思考(即在推理[inference]过程中进行逻辑推理[reasonging])”转变。这一转变正在开启一系列全新的智能应用。生成式AI市场的基础层正趋于稳定,处于一种由一批关键的大型企业及企业联盟构成的均衡状态,其中包括Microsoft/OpenAI、AWS/Anthropic、Meta以及Google...原创 2024-10-25 09:33:54 · 2403 阅读 · 0 评论 -
LLM量化效果评估:50万次实测后的发现
尽管量化已成为大模型性能优化的常规技术手段,但由于很难评估模型量化的实际效果,依然有人质疑量化模型的准确度与生成质量。对此,基于Llama 3.1系列模型,AI模型优化与加速推理服务商Neural Magic进行了超五十万次的实测,以对比模型量化与原始模型的效果。以下是他们评估后中的要点:1.设计了一套覆盖广泛推理场景的评估体系,确保从结构化任务到实际应用的全面分析,包括学术基准测试、真实场景基准...原创 2024-10-24 08:03:19 · 1893 阅读 · 0 评论 -
NotebookLM爆火背后:AI原生产品的核心洞察与创新
Perplexity、Cursor爆火之后,NotebookLM成为又一款备受欢迎的AI原生产品。NotebookLM是Google实验室(GoogleLabs)在2023年5月推出的一款原生AI笔记管理工具,能帮助用户高效地组织和提取信息,其前身是Google的Project...原创 2024-10-16 08:03:51 · 1757 阅读 · 0 评论 -
AI不是另一场“互联网泡沫”
此前,OneFlow发布的《2美元/小时出租H100:GPU泡沫破灭前夜》一文在业内引发强烈反响。不管怎样,当前GPU价格下跌是一个事实,然而这并非唱衰整个AI行业,恰恰相反,更多企业与个人开发者会因此获得更便宜的关键算力资源,同时,随着AI推理与微调需求的增长,这对促进AI应用市场的爆发具有正向作用。更进一步来看,即使存在GPU泡沫,是不是也意味着AI也是一场巨大的泡沫?基于200多页的Stat...原创 2024-10-22 09:33:22 · 629 阅读 · 0 评论 -
AI工程师指南:我是谁,从哪来,到哪去?
生成AI 正在以前所未有的速度重塑各行各业,而站在这场变革最前沿的莫过于 AI 工程师们。在「十字路口」的最近一期播客中,主播Koji(新世相创始人)与Ronghui(科技VC)两位邀请了两位 AI 领域的杰出人物硅基流动创始人&CEO 袁进辉与独立开发者 idoubi分享他们对 AI 工程师这个职业的独到见解。从底层技术到应用开发,从...原创 2024-10-12 08:04:01 · 691 阅读 · 0 评论 -
2美元/小时出租H100:GPU泡沫破灭前夜
红杉资本的报告曾指出,AI产业的年产值超过6000亿美元,才够支付数据中心、加速GPU卡等AI基础设施费用。而现在一种普遍说法认为,基础模型训练的资本支出是“历史上贬值最快的资产”,但关于GPU基础设施支出的判定仍未出炉,GPU土豪战争仍在进行。尤其是,以OpenAI为代表的大模型公司在训练+推理上的支出超过了收入,最近他们在有史以来最大的风险投资轮中筹集了66亿美元,同时预计2026年的亏损将达...原创 2024-10-13 08:03:41 · 3928 阅读 · 0 评论 -
开源AI背后的商业密码
商业公司为何热衷于开源项目?为什么要花费大量资源研发一个免费公开,甚至可能暴露竞争优势的工具?本文作者将从商业角度探讨这个问题,重点分析AI技术生态系统中的不同利益相关者如何利用开源软件取得优势,并探讨公司如何通过开源增加业务采纳度的不同策略。(本文由OneFlow编译,转载请联系授权。https://artificialintelligencemadesimple.substack.com/p/...原创 2024-10-05 10:45:29 · 4318 阅读 · 0 评论 -
大模型成本效益对比:DeepSeek 2.5 VS Claude 3.5 Sonnet VS GPT-4o
与Claude和GPT模型相比,DeepSeek模型过去一度被开发者社区忽视。不过,过去几个月以来,DeepSeek的发展势头非常迅猛。随着DeepSeek 2.5发布(该版本整合了DeepSeek-V2-Chat和DeepSeek-Coder-V2-Instruct的功能),该模型热度达到顶峰。DeepSe...原创 2024-09-27 08:04:05 · 3320 阅读 · 0 评论 -
LLM逻辑推理的枷锁与破局策略
大型语言模型(LLM)常常看似能够有效地进行推理(Reasoning)。它们能够给出连贯且与上下文紧密相关的回复,这些回复与人的推理结果相似。不过,这种表面上的能力可能会产生误导。大型语言模型在面对需要大量推理链的复杂问题时经常犯错。它们的回复起初可能看起来合乎逻辑,但往往缺乏进行...原创 2024-09-24 13:05:22 · 3381 阅读 · 0 评论 -
AI市场的资本谜团与流向
本文将详细解答许多人心中的一个关键问题——AI的资金都流向了哪里?作者从AI行业的全局视角出发,将AI的价值系统性地分解成了不同的部分,并通过诸多数据点深入分析了具体话题。(本文由OneFlow编译发布。转载请联系授权:https://artificialintelligencemadesimple.substack.com/p/the-current-state-of-ai-markets-gu...原创 2024-09-11 08:55:35 · 3260 阅读 · 1 评论 -
900个开源AI工具背后,我看到的趋势
四年前,我对开源机器学习生态系统进行了分析。自那时起,情况就发生了变化,所以这次我打算重新讨论这个话题,本次主要关注的是基础模型的技术栈。我把完整的开源AI代码库列表放在了“llama-police”(https://huyenchip.com/llama-police,该列表每6小时更新一次。其余大部分也放在了我的GitHub“c...原创 2024-05-16 08:03:58 · 5118 阅读 · 0 评论 -
Cerebras:挑战英伟达,全球最快AI推理芯片的“魔法”
大模型的出现使得AI芯片的需求暴增,但在这个市场,英伟达占据了近90%份额,其市值也曾超过3万亿美元。为什么英伟达能一家独大?尽管芯片市场上还有AMD等厂商,但在需要大规模算力集群的大模型预训练阶段,英伟达几乎是唯一一个接收过数万块GPU芯片性能运行验证与反馈的平台,这对其他芯片厂商来说存在非常高的门槛,当然,英伟达GPU软件栈在加速方面也具有优势。随着大模型推理需求大幅增长,开发者可以使用小规模...原创 2024-09-09 08:07:24 · 2589 阅读 · 0 评论 -
GPU利用率背后的性能真相
一般而言,机器学习团队理解GPU使用情况的常见度量标准是GPU利用率,通常通过在终端中运行nvidia-smi来查看。许多集成的可观测性工具也将GPU利用率作为其主要性能指标进行跟踪。然而,AI Infra团队Trainy在实操中发现,GPU利用率并不总是理解GPU性能的最佳指标。实际上,在不做任何计算的情况下读取/写入内存,就可达到100%的GPU利用率!本文作者Roanak Baviskar在...原创 2024-08-27 08:03:51 · 4477 阅读 · 0 评论 -
10倍加速LLM计算效率:消失的矩阵乘
矩阵乘法(MatMul)是深度学习中的主要计算瓶颈,尤其在ChatGPT等Transformer模型中,矩阵乘法的运行时长约占其总运行时长的45-60%,解决这一挑战对发展更经济的大模型具有重要意义。为此,加州大学的研究人员在论文《Scalable MatMul-free Language Modeling(可扩展的无矩阵乘法语言模型构建)》 中试图通过消除矩阵乘法来构建更便宜、耗能更少的语言模型...原创 2024-08-20 09:15:21 · 2461 阅读 · 0 评论 -
前OpenAI联创、ChatGPT负责人John Schulman:大模型的升级秘诀
8月6日,OpenAI联合创始人、ChatGPT架构师John Schulman宣布离职,将加入另一家由前OpenAI员工Dario Amodei创办的大模型公司Anthropic。近9年前,Schulman在研究生毕业后加入OpenAI,成为创始团队的一员。他是深度强化学习的早期先驱之一,很多人不知道的是,他也是ChatGPT项目的负责人,是他领导了ChatGPT的秘密武器RLHF(人类反馈的强...原创 2024-08-08 18:06:01 · 6348 阅读 · 0 评论 -
AI搜索Perplexity的产品构建之道
作为一家刚成立不到两年的新公司,AI搜索新星Perplexity与搜索巨头Google和AI先锋OpenAI展开竞争,争夺未来搜索领域的一席之地。目前,Perplexity已经拥有数以千万计的用户,不过,该团队的成员还不到50人。更令人振奋的是,这个年轻团队已经实现了超过2000万美元的...原创 2024-08-02 11:50:08 · 2725 阅读 · 0 评论 -
AI Scaling的神话
截至目前,语言模型越来越大,能力也越来越强,但过去的表现能预测未来吗?一种流行的观点是,我们应该期待当前的趋势继续保持下去,并且出现更多数量级,这最终可能会引领我们实现AGI。本文作者认为,这种观点来自于一系列神话和误解。从表面上看,规模扩展(Scaling)具有可预测性,但这是对研究成果的误解。此外,有迹象表明,LLM开发者已经接近高质量训练数据的极限。而且,模型行业正面临着模型尺寸的强烈下行压...原创 2024-07-26 09:03:08 · 1302 阅读 · 0 评论 -
生成式AI推理企业的市场机遇、竞争与未来
在生成式人工智能时代的投资选择中,风投公司对“铲子型”初创企业的浓厚兴趣,这些企业的业务涵盖了模型微调、可观测性分析、以及人工智能的“抽象化”服务(例如,将AI Inference作为服务)等。人们预测,随着初创公司和企业将人工智能技术纳入其产品组合,他们可能不愿意或无法在内部构建这些技术能力...原创 2024-07-18 08:14:14 · 1428 阅读 · 0 评论 -
大模型产品化第一年:战术、运营与战略
这是一个激动人心的时代,所有人都能够利用语言大模型(LLM)进行各种各样的产品构建。过去一年里,LLM已经达到了“足够好”的水平,可以应用于现实世界的场景,并且模型每年都在迭代,变得更好、更便宜。伴随着社交媒体上的一系列产品演示,预计到2025年,AI领域的...原创 2024-06-21 11:03:57 · 4612 阅读 · 0 评论 -
生成式AI产业经济学:价值分配与利润结构
处在生成式人工智能(GenAI)技术变革的浪潮上,人们对这一将降低成本和产生利润的强大工具充满了期待。然而,ChatGPT爆火一年后,GenAI产业还没有形成像当前云服务产业那样的价值结构,后者的上层应用占据价值链中的大部分比例,并获取了大部分利润,基础设施软件层的利润次之,而硬件层分到的“蛋糕”最少。与之相反,在GenAI领域,硬件层却占据了近90%的利润率。蓦然回首,大家发现,整个产业链基本都...原创 2024-04-29 08:35:02 · 2681 阅读 · 0 评论 -
LLaMA 3:大模型之战的新序幕
本文要点概览:文本数据的扩展可能已经达到了极限,因为易于获取的网络文本资源(如Common Crawl、GitHub、ArXiv等)已基本被充分利用。尽管如此,通过更深入地挖掘互联网资源、搜寻图书馆藏书及使用合成数据,我们仍有望获得新的文本数据,但要实现数据量级的大幅提升却面临重重挑战——这些新增的数据更可能是当前数量级上的增量。规模扩展竞...原创 2024-04-25 08:04:06 · 2821 阅读 · 2 评论 -
LLM推理的极限速度
本文作者ArsenyKapoulkine从零开始开发了语言大模型推理的一种实现方式calm(https://github.com/zeux/calm),旨在以最少的实现和无依赖性的方式为LLM架构获得最大的单 GPU 单批次硬件利用率,该项目的其中一个关键考虑因素是确定推理的极限速度,并根据该极限来衡量相对进展。他在本文中探讨这一理论极限及其影响。如果你对进一步的推导和图表感兴趣,他在这份笔记(...原创 2024-04-09 08:03:20 · 3234 阅读 · 0 评论 -
强化学习之父Richard Sutton:通往AGI的另一种可能
2019年,强化学习之父、阿尔伯塔大学教授Richard Sutton发表了后来被AI领域奉为经典的The Bitter lesson,这也是OpenAI研究员的必读文章。在这篇文章中,Richard指出,过去 70 年来,AI 研究的一大教训是过于重视人类既有经验和知识,而他认为最大的解决之道是摒弃人类在特定领域的知识,利用大规模算力才是王道。这一思想很快得到了OpenAI首席科学家Ilya S...原创 2024-03-21 08:03:51 · 4957 阅读 · 0 评论 -
OpenAI的组织形态、决策机制与产品构建
与ChatGPT面世后的疑惑类似,视频生成大模型Sora发布之后,人们依然在问同样的问题:为什么OpenAI能做出这样的创新成果?要知道,世界上不乏人才密集、有钱、有数据的公司,但能持续做出划时代产品的团队寥寥无几。可以肯定的是,除了OpenAI团队中关键少数的技术远见,这些重量级产品的实现与他们的组织运作密不可分。那么,这些人到底是如何被组织起来的,他们有什么样的组织形态和文化?在Lenny R...原创 2024-03-01 08:49:24 · 3962 阅读 · 0 评论 -
GenAI的“关键一跃”:推理与知识
当前的人工智能领域正通过生成式人工智能(GenAI)经历一场重大转变。这一转变不仅代表了技术上的飞跃,更标志着人工智能领域的范式转变,引发了有关GenAI的独特特性及其深远影响的关键问题讨论。植根于计算革命的丰富历史,本文从计算复杂性角度出发,探索推理和知识的本质,将历史性成就与最新的进展巧妙地交织在一起,以丰富我们对人工智能的理解。(本文作者为吕坚平博士。以下内容经授权后由OneFlow编译发布...原创 2024-02-18 09:05:33 · 4516 阅读 · 0 评论 -
语言大模型推理加速指南
本文是一篇关于加快语言大模型推理速度的综合指南。从硬件优化到各种解码技巧,文章介绍了各种优化策略,旨在帮助读者更好地理解和优化LLM的性能。相信不论是这一领域的初学者或是专家,都能从中有所收获。本文作者为工程师和计算语言学家Theia。(以下内容由OneFlow编译发布,转载请联系授权。原文:https://vgel.me/posts/faster-inference/)作者 |TheiaOne...原创 2024-01-31 09:31:16 · 4834 阅读 · 1 评论 -
Mistral AI:探索LLM推理的吞吐、时延及成本空间
选择正确的LLM推理栈意味着选择适合你的任务的正确模型,并配以适当的推理代码在适当的硬件上运行。本文介绍了流行的LLM推理堆栈和设置,详细说明其推理的成本构成;并讨论当前的开源模型以及如何充分利用它们,同时还涉及当前开源服务栈中仍然缺失的功能,以及未来模型将解锁的新功能。本文源自MistralAI首席技术官Timothée Lacroix的演讲。他于2015年在Facebook AI Resea...原创 2024-01-24 09:18:25 · 4948 阅读 · 3 评论 -
大模型的规模扩展是否可持续?
GI何时会到来?如果我们能不断扩展LLMs++的规模(并因此取得更好和更通用的性能),就有理由期望到2040年(或更早)出现强人工智能,它能够自动化大部分认知劳动并加速人工智能研究。然而,如果扩展(scaling)不起作用,那么实现AGI的道路则会变得更加漫长、棘手。为全面探讨有关扩展的正反观点,我构造了两个虚构角色(正...原创 2024-01-17 09:05:35 · 5066 阅读 · 1 评论 -
机器学习硬件十年:性能变迁与趋势
本文分析了机器学习硬件性能的最新趋势,重点关注不同GPU和加速器的计算性能、内存、互连带宽、性价比和能效等指标。这篇分析旨在提供关于ML硬件能力及其瓶颈的全面视图。本文作者来自调研机构Epoch,致力于研究AI发展轨迹与治理的关键问题和趋势。(本文由OneFlow编译发布,转载请联系授权。原文:https://epochai.org/blog/trends-in-machine-learning-...原创 2023-12-05 08:04:02 · 9335 阅读 · 0 评论 -
可复现的语言大模型推理性能指标
LLMPerf是一个开源项目,旨在帮助用户对语言模型进行基准测试,并使其性能具有可复现性。它能够帮助用户评估不同LLM的性能,并根据具体任务做出明智的决策。该项目选择了多个指标来衡量LLM的性能,包括吞吐量、时延、内存使用和成本等。本文介绍了如何使用LLMPerf进行基准测试,并提供了一些实用的技巧和建议。此外,本文还对当前最流行的LLM进行了基准测试,并提供了详细的结果和分析。需要说明的是,LL...原创 2023-11-17 08:51:58 · 3459 阅读 · 1 评论 -
Transformer作者:指令型智能体的构建之法
2017年,Google发布的《Attention Is All You Need》论文提出了Transformer架构,这成为过去十年神经网络领域最具影响力的技术创新之一,并被广泛应用于NLP、计算机视觉、蛋白折叠等诸多领域。更重要的是,它成为后来包括ChatGPT在内的诸多大模型的基石。不过,T...原创 2023-07-13 09:08:40 · 4630 阅读 · 1 评论 -
为什么多数情况下GPT-3.5比LLaMA 2更便宜?
本文旨在为用户选择合适的开源或闭源语言模型提供指导,以便在不同任务需求下获得更高的性价比。通过测试比较 LLaMA-2 和 GPT-3.5 的成本和时延,本文作者分别计算了二者的 1000 词元成本,证明在大多数情况下,选择 GPT-3.5 的成本更低、速度更快。基于上述评估维度,作者特别指出,LLaMA-2 等开源模型更适合以提示为主的任务,而 GPT-3.5 等闭源模型更适合以生成为主的任务。...原创 2023-10-14 08:03:30 · 3745 阅读 · 0 评论 -
开源语言大模型的正确姿势
如今,很多公司都被迫加快步伐,参与到开源语言大模型(LLM)的竞争之中。发布某种形式的开源语言大模型已成为机器学习公司实力的象征。最近,Mistral AI 完成资金筹集,发布了一款拥有 70 亿参数的强大语言模型。尽管更多人参与到开源机器学习生态系统中是有益的,也被很多人视为一个重要的发展趋势,但现在我们需要转变视角,推动...原创 2023-10-12 08:04:38 · 3179 阅读 · 0 评论 -
ChatGPT规模化服务的经验与教训
2022年11月30日,OpenAI发布ChatGPT,以很多人未曾预料的速度迅速走红。与此同时,由于短时间内用户量的暴涨,导致服务器过载,迫使OpenAI停止新用户的注册。ChatGPT发布这一年,同样的情景发生了好几次。在最近的OpenAI开发日之后,使用量再度激增,随后OpenAI宣布暂停新用户使用其付费服务。这背后体现了大模型提供规模化服务时运维的重要性。Evan Morikawa是Ope...原创 2023-11-21 10:02:07 · 4459 阅读 · 0 评论 -
关于语言大模型的八大论断
近几个月来,语言大模型(LLM)的广泛公开部署引起了倡导者、政策制定者和许多领域学者们的新一轮关注和参与。Anthropic技术团队成员、纽约大学助理教授Samuel R. Bowman总结了八个可能引发思考的观点,并讨论了LLM还存在的局限性。即便没有针对性的创新,LLM的能力也会随着投资的增加而可预估地增强LLM中的一些重要行为往往作为增加投资的“副产品”不可预测地出现LLM经常学习并使用外部...原创 2023-06-26 08:31:08 · 2727 阅读 · 0 评论 -
语言大模型的进化轨迹
ChatGPT的发布是语言大模型(LLM)发展史的转折点,它让人们意识到LLM的潜力,并引发了“AI竞赛”,世界上主要人工智能实验室和初创公司都参与其中。在这之后,基于LLM的聊天机器人层出不穷。ChatGPT及相关LLM模型让我们共同见证了AI的历史性变革,很多人好奇,LLM和它们的运作方式究竟是怎样的?它们是如何被构建的?未来又将走向何方?本文对此进行了深入探讨。本文作者Etienne Ber...原创 2023-07-04 08:03:39 · 2699 阅读 · 0 评论 -
英伟达的AI霸主地位会持久吗?
目前英伟达因其 GPU 芯片在 AI 革命中扮演着核心角色,使其成为AI时代最赚钱的公司。本文作者Pete Warden总结了铸就英伟达 AI 霸主地位的四点优势:几乎无人运行大规模机器学习应用;英伟达的替代品都很糟糕;研究人员掌握着硬件采购的风向舵;训练时延的影响。随着 AI 技术的发展,Pete 预测,上述优势将逐渐发生变化:英伟达在整体 AI 市场中的份额占比将下降,虽然 AI 市场整体...原创 2023-09-15 11:42:58 · 5445 阅读 · 0 评论 -
语言大模型推理性能工程:最佳实践
在这篇文章中,MosaicML工程师团队分享了如何在生产环境中充分利用流行开源语言大模型(LLM)的最佳实践。此外,他们还提供了围绕模型部署推理服务的指南,以帮助用户更好地选择模型和部署硬件。他们在生产环境中使用了多个基于PyTorch的后端。这些指南是MosaicML工程师团队基于FasterTransformers、vLLM以及NVIDIA的TensorRT-LLM等背后的经验总结而来。Mos...原创 2023-10-25 09:45:37 · 3242 阅读 · 0 评论
分享