- 博客(454)
- 收藏
- 关注
原创 LLM长上下文RAG能力实测:GPT o1 vs Gemini
本文深入探讨了检索增强生成(RAG)技术在AI工作流中的应用,特别是OpenAI的o1系列模型和Google的Gemini 1.5模型在长上下文RAG任务中的性能,分析了不同模型在长上下文RAG任务中的失败模式,为开发者构建RAG系统提供了宝贵参考。(本文由OneFlow编译发布,转载请联系授权。原文:https://www.databricks.com/blog/long-context-rag...
2024-11-12 08:03:55
373
原创 推算LLM训练的GPU内存需求
本文将分析大语言模型训练的GPU内存需求,主要包括三个方面:训练数十亿参数基于Transformer的LLM时,每个GPU设备需要多少GPU内存;估算内存需求的公式是什么;如果模型无法匹配内存,在实践中应采取哪些措施来减少内存需求。(本文由OneFlow编译发布,转载请联系授权。原文:https://medium.com/@maxshapp/understanding-and-estimating...
2024-11-08 08:03:16
826
原创 70B大模型训练秘方③:1000次超参数优化实验的发现
今年6月,大模型公司Imbue依托它们自主构建的基础设施,从零起步,成功训练出一个70B参数的模型,其在相关推理任务上的卓越表现远零样本GPT-4o。在《70B大模型训练秘方① :数据集创建与评估》一文中,他们分享了用于模型评估的数据集,包含11个公共数据集的高质量子集,以及一套用于代码理解的原始问题。重点分享了为什么选择这些特定的数据集,以及数据创建过程和实际数据集的详细信息。在《从裸机到70B...
2024-11-05 08:04:32
892
原创 从通才到专家:AI系统向复合AI的演变
复合AI系统凭借其多模型、多工具的协同方式,展现出传统单一AI难以匹敌的应对复杂问题的能力,引发了广泛关注和讨论。本文从单体架构和微服务架构的演变切入,揭示了复合AI系统如何通过模块化的方式优化任务执行,提升灵活性与精准度。以Databricks Mosaic AI平台为例,作者Yared Gudeta分析了复合AI在维护系统中的应用实例,展示了该系统如何整合向量嵌入、图数据库和大语言模型以高效解...
2024-11-01 13:03:47
599
原创 用初中数学理解LLM工作原理
本文将从基础开始讨论大语言模型(LLM)的工作原理——假设你只知道如何对两个数字进行加法和乘法。首先,作者Rohit Patel会从构建一个简单的生成式人工智能出发,逐步阐释理解现代LLM和Transformer架构所需的所有知识。本文将剔除机器学习中所有花哨语言和术语,将一切简单地表示为数字。(本文作者Rohit Patel是Meta的数据科学家。本文由OneFlow编译发布,转载请联系授权。原...
2024-10-30 08:04:04
1124
原创 10个改变日常的大模型隐藏玩法
大模型可以写代码、做客服、帮忙写文章,但这些不过是冰山一角,大模型还有哪些不为人知但实用的用途?最近,关于大模型的隐藏技能在Reddit上引发热议,各种有趣的“武林秘籍”层出不穷。以下是部分大模型玩家眼中被低估的用途:1. 我手头大约有80盘VHS家庭录像带,于是把它们全部转换成了数字格式。然后,我将每段1-4小时的视频通过Whi...
2024-10-26 10:33:45
1750
原创 生成式AI的新战场:逻辑推断与推理计算
自生成式AI革命开启以来,研究正推动该领域从"快速思考(即迅速给出预训练的回应)",向“缓慢思考(即在推理[inference]过程中进行逻辑推理[reasonging])”转变。这一转变正在开启一系列全新的智能应用。生成式AI市场的基础层正趋于稳定,处于一种由一批关键的大型企业及企业联盟构成的均衡状态,其中包括Microsoft/OpenAI、AWS/Anthropic、Meta以及Google...
2024-10-25 09:33:54
2403
原创 LLM量化效果评估:50万次实测后的发现
尽管量化已成为大模型性能优化的常规技术手段,但由于很难评估模型量化的实际效果,依然有人质疑量化模型的准确度与生成质量。对此,基于Llama 3.1系列模型,AI模型优化与加速推理服务商Neural Magic进行了超五十万次的实测,以对比模型量化与原始模型的效果。以下是他们评估后中的要点:1.设计了一套覆盖广泛推理场景的评估体系,确保从结构化任务到实际应用的全面分析,包括学术基准测试、真实场景基准...
2024-10-24 08:03:19
1893
原创 AI不是另一场“互联网泡沫”
此前,OneFlow发布的《2美元/小时出租H100:GPU泡沫破灭前夜》一文在业内引发强烈反响。不管怎样,当前GPU价格下跌是一个事实,然而这并非唱衰整个AI行业,恰恰相反,更多企业与个人开发者会因此获得更便宜的关键算力资源,同时,随着AI推理与微调需求的增长,这对促进AI应用市场的爆发具有正向作用。更进一步来看,即使存在GPU泡沫,是不是也意味着AI也是一场巨大的泡沫?基于200多页的Stat...
2024-10-22 09:33:22
629
原创 最大的顶级数据集开源,HuggingFace排名第一,可创建15万亿Token
去年 12 月,生成式 AI 公司 Petuum 以及穆罕默德·本·扎耶德人工智能大学(MBZUAI)共同推出了一个用于创建开源大型语言模型的项目LLM360,旨在提高开源代码的透明度,公开整个 LLM 训练过程、代码、数据和最佳实践,以帮助开发人员更轻松、更快捷、更经济地创建开源大型语言模型,实现...
2024-10-19 12:05:37
1493
原创 10倍工程师的高效编码工具:Cursor x SiliconCloud x DeepSeek v2.5
Cursor 是一个基于 VSCode 开发的 AI 代码编辑器,提供强大的 AI 代码编辑能力。本文介绍如何利用 Cursor 的自定义模型功能,在 Cursor 中使用硅基流动 SiliconCloud 的 API,接入DeepSeek v2.5、Qwen2.5等大模型,通过高效、价格亲民的 API 服务,数量级提升你的编码能力。本文还讨论了 Cursor 免费版的常见限制以及对应的...
2024-10-18 08:03:14
2606
原创 NotebookLM爆火背后:AI原生产品的核心洞察与创新
Perplexity、Cursor爆火之后,NotebookLM成为又一款备受欢迎的AI原生产品。NotebookLM是Google实验室(GoogleLabs)在2023年5月推出的一款原生AI笔记管理工具,能帮助用户高效地组织和提取信息,其前身是Google的Project...
2024-10-16 08:03:51
1757
转载 分享ComfyUI BizyAir工作流,赢5000元机票补贴
凭着小步快跑的节奏,ComfyUI 云节点 BizyAir 已越发强大:集成了 FLUX.1、StableDiffusion、Kolors 等强大模型,支持自定义 LoRA 模型,还有 SiliconCloud LLM 的 AI 提示优化功能,助力你的创作。近期,BizyAir 还新增了模型上传共享功能,相信熟练掌握了 BizyAir 的你,现在一定强得可怕 :D所以,是时候给社区分享你的创作成果...
2024-10-16 08:03:51
91
原创 2美元/小时出租H100:GPU泡沫破灭前夜
红杉资本的报告曾指出,AI产业的年产值超过6000亿美元,才够支付数据中心、加速GPU卡等AI基础设施费用。而现在一种普遍说法认为,基础模型训练的资本支出是“历史上贬值最快的资产”,但关于GPU基础设施支出的判定仍未出炉,GPU土豪战争仍在进行。尤其是,以OpenAI为代表的大模型公司在训练+推理上的支出超过了收入,最近他们在有史以来最大的风险投资轮中筹集了66亿美元,同时预计2026年的亏损将达...
2024-10-13 08:03:41
3929
原创 AI工程师指南:我是谁,从哪来,到哪去?
生成AI 正在以前所未有的速度重塑各行各业,而站在这场变革最前沿的莫过于 AI 工程师们。在「十字路口」的最近一期播客中,主播Koji(新世相创始人)与Ronghui(科技VC)两位邀请了两位 AI 领域的杰出人物硅基流动创始人&CEO 袁进辉与独立开发者 idoubi分享他们对 AI 工程师这个职业的独到见解。从底层技术到应用开发,从...
2024-10-12 08:04:01
692
原创 再谈LLM逻辑推理的三大谬误
在此前的文章《LLM逻辑推理的枷锁与破局策略》,作者Alejandro Piad Morffis论述了为什么大语言模型不具备推理(reasoning)能力,并在X上引发强烈争论(https://x.com/alepiad/status/1837154075093225594)。针对这一主题,他再次写了一篇文章来驳斥关于LLM推理的三大误解。他认为,LLM在许多情况下所做的事情只是类似于推理,但并不...
2024-10-11 08:03:35
1967
原创 开源AI背后的商业密码
商业公司为何热衷于开源项目?为什么要花费大量资源研发一个免费公开,甚至可能暴露竞争优势的工具?本文作者将从商业角度探讨这个问题,重点分析AI技术生态系统中的不同利益相关者如何利用开源软件取得优势,并探讨公司如何通过开源增加业务采纳度的不同策略。(本文由OneFlow编译,转载请联系授权。https://artificialintelligencemadesimple.substack.com/p/...
2024-10-05 10:45:29
4318
原创 从裸机到70B大模型②:基础设施设置与脚本
今年6月,大模型公司Imbue依托它们自主构建的基础设施,从零起步,成功训练出一个70亿参数的模型,其在相关推理任务上的卓越表现远零样本GPT-4o。在《70B大模型训练秘方① :数据集创建与评估》一文中,他们分享了用于模型评估的数据集,包含11个公共数据集的高质量子集,以及一套用于代码理解的原...
2024-09-29 13:03:54
2264
原创 大模型成本效益对比:DeepSeek 2.5 VS Claude 3.5 Sonnet VS GPT-4o
与Claude和GPT模型相比,DeepSeek模型过去一度被开发者社区忽视。不过,过去几个月以来,DeepSeek的发展势头非常迅猛。随着DeepSeek 2.5发布(该版本整合了DeepSeek-V2-Chat和DeepSeek-Coder-V2-Instruct的功能),该模型热度达到顶峰。DeepSe...
2024-09-27 08:04:05
3320
原创 LLM逻辑推理的枷锁与破局策略
大型语言模型(LLM)常常看似能够有效地进行推理(Reasoning)。它们能够给出连贯且与上下文紧密相关的回复,这些回复与人的推理结果相似。不过,这种表面上的能力可能会产生误导。大型语言模型在面对需要大量推理链的复杂问题时经常犯错。它们的回复起初可能看起来合乎逻辑,但往往缺乏进行...
2024-09-24 13:05:22
3381
原创 AI市场的资本谜团与流向
本文将详细解答许多人心中的一个关键问题——AI的资金都流向了哪里?作者从AI行业的全局视角出发,将AI的价值系统性地分解成了不同的部分,并通过诸多数据点深入分析了具体话题。(本文由OneFlow编译发布。转载请联系授权:https://artificialintelligencemadesimple.substack.com/p/the-current-state-of-ai-markets-gu...
2024-09-11 08:55:35
3260
1
原创 Cerebras:挑战英伟达,全球最快AI推理芯片的“魔法”
大模型的出现使得AI芯片的需求暴增,但在这个市场,英伟达占据了近90%份额,其市值也曾超过3万亿美元。为什么英伟达能一家独大?尽管芯片市场上还有AMD等厂商,但在需要大规模算力集群的大模型预训练阶段,英伟达几乎是唯一一个接收过数万块GPU芯片性能运行验证与反馈的平台,这对其他芯片厂商来说存在非常高的门槛,当然,英伟达GPU软件栈在加速方面也具有优势。随着大模型推理需求大幅增长,开发者可以使用小规模...
2024-09-09 08:07:24
2589
原创 拆解生成式AI平台:基础组件、功能及实现
本文作者在研究了诸多公司如何部署生成式AI应用之后,发现并归纳了这些平台的相似之处。本文概述了生成式AI平台的常见组件、功能以及实现方法。(本文作者Chip Huyen是实时机器学习平台Claypot AI的联合创始人。本文经授权后由OneFlow编译发布,转载请联系授权。https://huyenchip.com/2024/07/25/genai-platform.html)
2024-09-05 09:03:31
1042
原创 70B大模型训练秘方① :数据集创建与评估
今年6月,大模型公司Imbue预训练了一个70B参数的模型,并在多选推理基准上进行了微调。在这些基准上,Imbue微调的模型超越了GPT-4o zero-shot表现(该模型未在这些基准上进行微调)。Imbue的微调模型,基于2万亿个Token进行预训练,其性能也接近于在超过7倍数据量上预训练的Llama3 70B微调模型的性能。由于他们在没有使用思维链的情况下评估了GPT-4o zero-sho...
2024-08-28 09:03:33
4255
原创 GPU利用率背后的性能真相
一般而言,机器学习团队理解GPU使用情况的常见度量标准是GPU利用率,通常通过在终端中运行nvidia-smi来查看。许多集成的可观测性工具也将GPU利用率作为其主要性能指标进行跟踪。然而,AI Infra团队Trainy在实操中发现,GPU利用率并不总是理解GPU性能的最佳指标。实际上,在不做任何计算的情况下读取/写入内存,就可达到100%的GPU利用率!本文作者Roanak Baviskar在...
2024-08-27 08:03:51
4478
原创 10倍加速LLM计算效率:消失的矩阵乘
矩阵乘法(MatMul)是深度学习中的主要计算瓶颈,尤其在ChatGPT等Transformer模型中,矩阵乘法的运行时长约占其总运行时长的45-60%,解决这一挑战对发展更经济的大模型具有重要意义。为此,加州大学的研究人员在论文《Scalable MatMul-free Language Modeling(可扩展的无矩阵乘法语言模型构建)》 中试图通过消除矩阵乘法来构建更便宜、耗能更少的语言模型...
2024-08-20 09:15:21
2461
原创 如何准确且可解释地评估大模型量化效果?
随着Llama 3.1的发布,关于不同量化方法的优缺点的讨论变得相当热烈。模型量化质量的评估一向是个难题,本文将分享Fireworks如何处理量化以及评估其中的权衡。以下是本文内容摘要:量化没有通用的标准——量化技术多种多样,模型中可以量化的部分也各不相同。
2024-08-09 11:54:44
1682
原创 比肩GPT4,没有显卡也能用Llama-3.1-405B
近日,Meta发布了备受瞩目的Llama-3.1系列模型,包括405B “超大杯”模型傲视群雄,成为首个比肩最强大模型的开源模型。Llama-3.1系列包括8B、70B、405B参数三个版本模型,上下文长度扩展至128k,支持八种语言,具有良好的代码生成能力、复杂推理能力以及工具使用能力。更长的上下文让模型能够处理更复杂和深入的对话场景,...
2024-08-09 11:54:44
3759
4
原创 前OpenAI联创、ChatGPT负责人John Schulman:大模型的升级秘诀
8月6日,OpenAI联合创始人、ChatGPT架构师John Schulman宣布离职,将加入另一家由前OpenAI员工Dario Amodei创办的大模型公司Anthropic。近9年前,Schulman在研究生毕业后加入OpenAI,成为创始团队的一员。他是深度强化学习的早期先驱之一,很多人不知道的是,他也是ChatGPT项目的负责人,是他领导了ChatGPT的秘密武器RLHF(人类反馈的强...
2024-08-08 18:06:01
6348
原创 超越SD3,比肩MJ v6,文生图模型FLUX.1开源
近日,图片生成模型FLUX.1引爆了AIGC社区,其在视觉质量、图像细节和输出多样性等方面性能优越,输出极佳的图片生成效果。FLUX.1系列模型由Black Forest Labs开源,创始人Robin Rombach是Stable Diffusion的两位主要作者之一。所有公开的FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构,并扩展到12B参数。这些模型经过特别微调,保...
2024-08-08 18:06:01
2270
1
原创 AI搜索Perplexity的产品构建之道
作为一家刚成立不到两年的新公司,AI搜索新星Perplexity与搜索巨头Google和AI先锋OpenAI展开竞争,争夺未来搜索领域的一席之地。目前,Perplexity已经拥有数以千万计的用户,不过,该团队的成员还不到50人。更令人振奋的是,这个年轻团队已经实现了超过2000万美元的...
2024-08-02 11:50:08
2725
原创 AI Scaling的神话
截至目前,语言模型越来越大,能力也越来越强,但过去的表现能预测未来吗?一种流行的观点是,我们应该期待当前的趋势继续保持下去,并且出现更多数量级,这最终可能会引领我们实现AGI。本文作者认为,这种观点来自于一系列神话和误解。从表面上看,规模扩展(Scaling)具有可预测性,但这是对研究成果的误解。此外,有迹象表明,LLM开发者已经接近高质量训练数据的极限。而且,模型行业正面临着模型尺寸的强烈下行压...
2024-07-26 09:03:08
1303
原创 生成式AI推理企业的市场机遇、竞争与未来
在生成式人工智能时代的投资选择中,风投公司对“铲子型”初创企业的浓厚兴趣,这些企业的业务涵盖了模型微调、可观测性分析、以及人工智能的“抽象化”服务(例如,将AI Inference作为服务)等。人们预测,随着初创公司和企业将人工智能技术纳入其产品组合,他们可能不愿意或无法在内部构建这些技术能力...
2024-07-18 08:14:14
1428
原创 双Buff加持!无GPU畅玩ControlNet Union,一个模型搞定10+图像控制
双重Buff加持,ComfyUI用户的生产力大升级。以往,为了实现轮廓、深度、动作姿势、颜色等多种控制效果,你可能需要安装不同的控制模型来独立实现,并且大大占用了你本地的存储空间。现在,Controlnet Union的推出让所有这些控制模型实现All in one,大大简化了用户操作流程,备受社区用户的推崇。更重要的是,不用考虑硬件与环境限制,在硅基流动团队开源的专用于ComfyUI的云节点Bi...
2024-07-17 11:33:44
2518
原创 比肩Midjourney-v6!没有GPU也能跑可图Kolors
比肩Midjourney-v6,快手的文生图开源模型可图Kolors一发布,开源社区就炸开了锅。短短几天,可图在Github上收获2k Star,Huggingface模型下载热榜第一。7月6日,快手宣布开源数十亿参数的文生图模型可图Kolors,可图支持中英文双语,支持长达256 token的上下文长度,最重要的是可以渲染中文,生成效果上实现了质的飞跃。值得一提的是,可图采用了智谱的开源大模型C...
2024-07-12 09:01:44
3757
1
原创 硅基流动完成近亿元融资:加速生成式AI技术普惠进程
硅基流动(SiliconFlow)近日完成总金额近亿元人民币的天使+轮融资。本轮融资由某知名产业方领投,跟投方包括智谱AI、360 和水木清华校友基金等知名企业及机构,老股东耀途资本继续超额跟进,华兴资本担任独家财务顾问。本轮融资不仅是对硅基流动技术实力和市场前景的高度认可,也将为其未来发展提供强劲动力。创始人兼 CEO 袁进辉表示:“非常感谢各位投资方对硅基流动的信任和支持。这次融资将帮助我们进...
2024-07-04 11:57:29
2691
原创 国产大模型新标杆!比肩GPT4,DeepSeek V2重磅升级
近日,深度求索团队更新了DeepSeek-V2模型,新版本DeepSeek-V2-Chat模型推理能力有了极大提升。尤其在数学解题、逻辑推理、编程、指令跟随、Json格式输出不同维度上,最高有16%的性能提升。在Arena-Hard测评中,DeepSeek-V2-Chat与GPT-4-0314的对战胜率从41.6%提升到了68.3%。DeepSeek-V2-Chat模型的角色扮演能力显著增强,可以...
2024-07-02 18:10:13
4998
原创 OpenAI停服,国产大模型免费用!开发者Token自由实现了
昨天,OpenAI 突然宣布终止对中国提供 API 服务,进一步收紧国内开发者访问 GPT 等高水平大模型。国内开发者真是太难了。好在,随着开源大模型水平越来越高,开发者已经有很多不错的 “平替”,比如 Qwen2、DeepSeek V2 等模型。为了给开发者提供更快、更便宜、更全面、体验更丝滑的开源大模型 API,AI Infra 领域的专业选手硅基流动(SiliconFlow)上...
2024-06-26 08:32:37
7715
1
原创 大模型产品化第一年:战术、运营与战略
这是一个激动人心的时代,所有人都能够利用语言大模型(LLM)进行各种各样的产品构建。过去一年里,LLM已经达到了“足够好”的水平,可以应用于现实世界的场景,并且模型每年都在迭代,变得更好、更便宜。伴随着社交媒体上的一系列产品演示,预计到2025年,AI领域的...
2024-06-21 11:03:57
4612
原创 击败GPT4-Turbo,最强开源代码模型DeepSeek-Coder-V2问世
6月17日,深度求索正式开源了DeepSeek-Coder-V2模型。根据相关评测榜单,这是全球首个在代码、数学能力上超越GPT-4-Turbo、Claude3-Opus、Gemini-1.5Pro等的开源代码大模型。DeepSeek-Coder-V2包含236B与16B两种参数规模,对编程语言的支持从86种扩展到338种。据官方博客介绍,DeepSeek-Coder-V2沿用DeepSeek-V...
2024-06-19 10:01:52
4955
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅