自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Datawhale

一个专注于AI领域的开源组织,汇聚了众多顶尖院校和知名企业的优秀学习者,聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner,和学习者一起成长。

  • 博客(2581)
  • 资源 (5)
  • 收藏
  • 关注

原创 Datawhale团队第三期录取名单!

Datawhale团队公示:Datawhale 组织成员Datawhale已经成立一年半了,从一开始的12个人,学习互助,到提议建立开源组织,做更多开源的事情,帮助更多学习者,也促进...

2020-09-23 21:17:58 2604

原创 最热Agent方向,高校活动组织者招募了!

五月到六月,Datawhale将联合扣子空间和 Dify 组织全国最大的 Agent 百校联动线下实践活动,将走进北大、北航、北邮、东财。哈尔滨工业大学、中山大学、湖南大学、苏州大学、华中师范大学、太原理工大学、广州大学等 42 所高校。高校学生或老师:参与高校活动组织和宣传、要求现场参与人数 >30 人。今年四月,AI+X 高校行走进了上海交通大学、同济大学、,和字节跳动、Dify联合提供周边礼物、组织者证书。对于高校行组织者,将提供活动策划方案、Agent主题:AI+X高校联动。

2025-05-21 23:59:02 36

转载 大模型全面爆发,所有榜一都是Gemini!谷歌一夜多线突破!

以上的盘点性介绍还并未穷尽谷歌今年的 I/O 大会上发布、升级或规划的一切,比如他们还推出了 Gemma 3n 的预览版本,这是一个可以在手机、笔记本电脑和平板电脑上流畅运行的开放式多模态模型,可以处理音频、文本、图像和视频。AI 模式今年早些时候开始在 Google 实验室测试,可以说是谷歌功能最强大的 AI 搜索功能,拥有更先进的推理能力和多模态分析能力,并能够通过后续问题和有用的网络链接进行更深入的探索。在接下来的几周内,美国用户将在谷歌搜索和谷歌应用的搜索栏中看到一个新的 AI 模式标签页。

2025-05-21 12:46:03 24

转载 Agent大爆发!微软一晚上发布50个新东西!

如下演示中,若发现代码库中存在容易混淆的命名,或不一致问题,直接交给Copilot,让其创建一个PR全面检查代码库,并提出更清晰统一命名的规范建议。而且,这种基于上下文的推理过程,并非输出单一固化的答案,而是能通过详尽的来源追溯和推理过程,确保专家始终参与其中。这就颠覆性地改变了科研:智能体不仅为人类工作,还与他们协同,让人类的独创能力大大增强,能够既见树木,又见森林。最重要的是,它还能让开发者保持「心流状态」,与AI智能体、其他程序员,以及团队无缝协作,加速整个开发生命周期。

2025-05-20 22:01:16 27

转载 75万元奖金池+心动offer,启元实验室2025重磅赛事来袭,三大赛道,等你来战!

20 余所高校和科研院所建立战略合作关系,与多家工业集团及智能科技领先企业搭建协同机制,联合百余家单位共同推进重大任务筹划、技术攻关、成果转化与高端人才培养,产出了一系列具有影响力的标志性科研成果,并积极推进成果落地应用。」三大方向,围绕鲁棒感知、轻量部署与对抗防御等核心能力,旨在引导技术创新精准对接应用场景,加速智能算法的落地转化与规模化推广。在实际应用中,受限于复杂地表覆盖、多视角成像差异及云雾遮挡等因素,现有算法在多目标精细分割、跨场景泛化和鲁棒性方面仍存在明显不足,亟待突破关键瓶颈。

2025-05-20 22:01:16 23

转载 手撕大模型Attention:MLA、MHA、MQA与GQA(含实现代码)

是对多头注意力(MHA)和多查询注意力(MQA)的折中优化方案。其核心思想是将查询头(Query Heads)划分为多个组(Group),每组内的查询头共享一组键(Key)和值(Value),从而在保留多头并行性的同时减少参数量和计算复杂度。多头注意力(Multi-Head Attention, MHA)是Transformer模型的核心机制,通过并行计算多个注意力头,使模型能够同时关注输入序列中不同位置的特征。这种设计在保持多头多样性的前提下,减少了显存占用和计算延迟,适合长序列建模和大规模模型部署。

2025-05-20 17:19:00 20

转载 北大DeepSeek论文或预定ACL Best Paper!梁文锋署名

论文作者包含罗钧宇(北京大学,导师为张铭教授),寇智卓(HKUST),杨礼铭(北京大学),罗霄(UCLA),黄进晟(北京大学),肖之屏(华盛顿大学),彭靖姝(HKUST),刘程中(HKUST),吉嘉铭(HKUST),刘譞哲(北京大学),韩斯睿(HKUST),张铭(北京大学,通讯作者),郭毅可(HKUST)。该论文第一作者为数据科学与工程所博士生赵禹昇(北京大学,导师为张铭教授),合作者包括罗霄(加州大学洛杉矶分校)、温浩珉(卡耐基梅隆大学)、肖之屏(华盛顿大学)、琚玮(四川大学),张铭(北京大学,

2025-05-19 22:40:28 29

转载 大语言模型与小语言模型协同机制综述

与此同时,小型语言模型(Small Language Models, SLMs)因其结构轻量、推理速度快、部署便捷,广泛应用于资源受限的终端设备中(Gao, Zhu, & Liu, 2025)。第三章深入探讨大小模型协同的机制与架构,系统归类并介绍常见模式,如流水线式、混合/路由式、辅助增强式、知识蒸馏驱动型以及模型融合等,并分析实现协同所需的关键支撑技术。其核心目标在于,通过智能协作,融合 LLM 的强大能力与 SLM 的高效优势,构建出更智能、高效、可可靠部署的推理系统。Datawhale学术。

2025-05-19 21:45:44 34

转载 最新!2025 中国 ESI 大学排名(496 所)

非“双一流”高校中,广东工业大学新增2个前1‰学科,大连工业大学、沈阳农业大学、中国医科大学、昆明理工大学各新增1个前1‰学科。其中,南方科技大学新增3个前1%学科,天津师范大学、南通大学、湖北大学、长沙理工大学、西华大学、西南医科大学各新增2个前1%学科,其余高校各新增1个前1%学科。入围国际排名前200的,还有四川大学、武汉大学、南京大学、西安交通大学、哈尔滨工业大学、山东大学、天津大学、同济大学、华南理工大学、吉林大学、郑州大学、东南大学和苏州大学等13所高校。Datawhale分享。

2025-05-18 22:01:27 19

转载 刚刚!北大校友、OpenAI前安全副总裁Lilian Weng最新博客来了:Why We Think

他们设计的奖励函数可以使正确的 CoT 比错误的 CoT 获得更高的奖励,短的正确 CoT 比长的正确 CoT 获得更高的奖励,短的错误 CoT 比长的错误 CoT 获得更高的惩罚。如果模型是忠实的,它就应该明确承认提示的影响,并承认其答案的变化是由提示引起的。这种对 CoT 推理的依赖性(以使用 CoT 与不使用 CoT 得到相同答案的百分比来衡量)在多选题中并不总是随着模型大小的增加而增加,但在加法任务中却会随着模型大小的增加而增加,这意味着在复杂的推理任务中,思考时间更为重要。

2025-05-18 14:40:05 43

转载 2万字长文,YOLOv1-YOLOv11的十年全面进化综述!

此外,Norkobil Saydirasulovich 等人对 YOLOv6 进行了扩展,改进了智能城市环境中的火灾检测,证明了该算法超越传统医疗应用的多功能性,证明了其在不同环境条件下的有效性。这些模型的性能优于前代模型,基础之上的创新功能。图 2:本综述文章结构图:该结构包括讨论开发路径的 YOLO 轨迹、之前的 YOLO 文献:提供背景和差异的上下文和区别、详细介绍每个版本的 YOLO 版本回顾、突出显示各种用例的应用程序、挑战、解决当前问题和潜在进展的局限性和未来方向,以及总结研究结果的结论。

2025-05-17 22:56:41 92

转载 快速理解一下!RL 究竟是如何与 LLM 做结合的?

RLHF 想必今天大家都不陌生,但在 ChatGPT 问世之前,将 RL 和 LM 结合起来的任务非常少见。这就导致此前大多做 RL 的同学不熟悉 Language Model(GPT)的概念,而做 NLP 的同学又不太了解 RL 是如何优化的。在这篇文章中,我们将简单介绍 LM 和 RL 中的一些概念,并分析 RL 中的「序列决策」是如何作用到 LM 中的「句子生成」任务中的,希望可以帮助只熟悉 NLP 或只熟悉 RL 的同学更快理解 RLHF 的概念。强化学习(Reinforcement Learnin

2025-05-17 15:13:04 26

转载 刚刚,OpenAI最强编程智能体上线ChatGPT

当Thibault提出希望代码库「易维护、无bug」的目标时,Codex遍历代码库后,主动发现了可变默认值、不一致的超时设置等问题,并自行生成了修复任务。此外,OpenAI研究员Katy Shi演示中强调,Codex的PR包含了详细的摘要,清晰说明了修改内容和引用的代码,测试结果一目了然。在纠错方面,他故意在指令中加入拼写错误,Codex不仅理解了意图,还主动找出了代码库中的拼写和语法问题并修复,细致到令人惊叹。点击ChatGPT侧边栏,输入提示后,直接点击「代码」分配任务,或「提问」咨询代码库相关问题。

2025-05-17 07:05:47 33

转载 不用等了!吴恩达MCP课程来了!

MCP 是一种开放的技术协议,旨在标准化大型语言模型(LLM)与外部工具和服务的交互方式。你可以把 MCP 理解成像是一个 AI 世界的通用翻译官,让 AI 模型能够与各种各样的外部工具"对话"。通过这门课程,你将能够构建出富上下文的 AI 应用,这些应用可以轻松连接到不断增长的 MCP 服务器生态系统,而集成工作量将大大减少。人工智能著名学者、斯坦福大学教授吴恩达的 DeepLearning.AI 与 Anthropic 合作,隆重推出了名为《MCP: 构建富上下文 AI 应用》的。

2025-05-16 22:07:06 74

转载 14小时近500 Star!快速进阶LLM/AI的必读系列

项目地址:https://github.com/InterviewReady/ai-engineering-resources。Core Architecture 核心架构。Vectorization 向量化处理。Infrastructure 基础设施。Tokenization 分词处理。Distillation 蒸馏。Datawhale分享。LLM/AI,编辑:深。基于人类反馈的强化学习。

2025-05-16 19:11:10 43

原创 新增学习内容:基于MCP的AI Agent应用开发!

春训营最后一期,由Datawhale联合上海科学智能研究院、科大讯飞。新增阿里云百炼和Datawhale的联合项目,聚焦。Datawhale AI春训营 x 阿里云百炼。、阿里云百炼等国内头部产学研机构共同主办。基于MCP的AI Agent应用开发,面向。内容更新:Datawhale AI春训营。Datawhale发布。

2025-05-15 23:10:06 206

转载 DeepSeek-V3再发论文,梁文锋署名,低成本训练大模型的秘密揭开了

因此,来自同一 QP 的数据包可能会穿越不同的网络路径,并以无序方式到达接收方,因此需要在网卡内原生支持无序布局,以保证消息一致性并保留正确的排序语义。在 H800 架构中,纵向扩展(scale-up,节点内)和横向扩展(scale-out,节点间)通信之间的带宽差异约为 4:1。具体而言,NVLink 可提供 200GB/s 的带宽(其中实际可实现约 160GB/s),而每个 400Gbps IB 网卡仅提供 50GB/s 的带宽(考虑到较小的消息大小和延迟影响,有效带宽为 40GB/s)。

2025-05-15 19:13:24 44

转载 LeCun转发!纽约大学100页机器学习讲义公开:所有人都在追LLM,高校为何死磕基础理论?

真正的技术能力不仅在于「会用工具」或「能跑模型」,而在于理解方法背后的原理,在面对新问题、新技术时,具备独立分析、判断和创造的能力。比如斯坦福 CS229, 是经典的机器学习基础课程,2025 年冬季课程简介中,课程系统讲授包括线性回归、逻辑回归、SVM、神经网络、聚类、降维、EM 算法等基本模型与方法,强调数学推导与优化思想,广泛应用于跨领域研究。清华大学电子系与企业合作开设了多门实用性课程,如「大数据技术的应用与实践」、「高阶机器学习」和「智能制造」等,将行业实际案例和编程实践引入教学过程。

2025-05-14 23:12:42 44

转载 是时候彻底弄懂BERT模型了!

现在来了一个新任务,并有一个新模型,我们使用已经训练过的模型(预训练的模型)m 的参数来初始化新的模型,而不是使用随机参数来初始化新模型。BERT 如此成功的一个原因之一是它是基于上下文(context-based)的嵌入模型,不像其他流行的嵌入模型,比如 word2vec,是上下文无关的(context-free)。因为在初始的迭代时,我们远没有收敛,所以设置较大的学习率带来更大的步长是可以的,但在后面的迭代中,我们已经快要收敛了,如果学习率(导致步长)较大可能会错过收敛位置(极小值)。

2025-05-14 22:08:58 42

原创 最后一期春训营,AI算法/大模型通通都有!

2025年最后一期AI春训营,由Datawhale联合上海科学智能研究院、科大讯飞。涵盖AI算法和大模型方向的三个赛事实践项目。第三届世界科学智能大赛(AI+新能源)第三届世界科学智能大赛(AI+创新药)最后一期,涵盖AI算法/大模型方向。2025「星火杯」大模型应用创新赛。等国内头部产学研机构共同主办,Datawhale学习。2025 AI春训营第三期。通俗理解三个赛事实践。

2025-05-13 22:33:49 136

转载 18岁天才高中生独登顶刊,AI解锁150万新天体!斯坦福连夜发offer

近日,来自美国加州的18岁高中生Matteo Paz,凭借将机器学习与天文学巧妙融合的卓越研究,在2025年Regeneron科学人才搜索竞赛(Regeneron Science Talent Search,简称Regeneron STS)中力压群雄,斩获一等奖。2022年夏天,他走进加州理工学院,在Andrew Howard教授领衔的行星探测器学院(Caltech Planet Finder Academy),系统学习天文学与相关计算机科学知识,开启了更深入的学术探索之旅。

2025-05-13 21:17:37 61

转载 Sam Altman最新深度专访:2025,Agent智能体应用大年

Datawhale热点 最新采访:Sam Altman,编译:AIGC开放社区今天凌晨3点,全球著名投资机构红杉资本(Sequoia Capital)发布了,Sam Altman参加其举办的“2025 AI Ascent”大会。OpenAI联合创始人兼首席执行官SamA ltaman作为特邀嘉宾,接受了32分钟的专访和现场提问。Altaman回顾了OpenAI的创业历程、产品规划/发展、对AI行业的看法等。在谈到火爆全球的AI Agent时,Altaman认为,2025年将是智能体大规模应用的一年,尤其是是

2025-05-13 15:28:26 84

原创 AI本科毕业前的年度总结!从FPS游戏到AI大模型

工作内容主要是调研大模型在内部数据标注任务的工作流,,前期主要就是调海量的 API 来实验,除了改善工作流,最重要的就是找到最好的模型。同时升学方面从读一年硕变为了考虑 PhD,但不确定这个选择能否带给我足够的动力,因此准备 GAP 实习 / RA 一年来慢慢看(话说回来我的 pub 也不够,所以也许要沉淀一下),当然凭我对自己的了解,无论是科研还是业界实习,我都只想从事有价值的工作,因此如果能有情司的实习机会我可能直接 all in 了(梦想还是要有的,毕竟这还依然是我的前进动力之一)。

2025-05-12 23:56:37 716

转载 红杉 AI 峰会闭门 6 小时,150 位创始人共识浮现:AI 不再卖工具,而是卖收益

这也解释了为什么 Claude Code 能够在 Anthropic 内部引爆:它不是“代码助手”,而是一个“独立完成工程任务的 AI 节点”——70% 以上的生产代码提交,已经由它独立完成。OpenAI、Ramp、Sierra,这一批应用层玩家,不再争抢“最先进的AI模型”,而是率先进入“谁交付成果谁赢”的商业现实。当你放下“人-机”的陈旧观念,重新思考“如何定义任务、释放信任、安排协同”时,你才真正踏入了 AI 经济的第一公里。你的产品,也不是“用得多不多”,而是“跑没跑完流程”。

2025-05-12 12:28:54 314

原创 最后一期实习绿通和奖学金!面向本科生、研究生的 AI 春训营来了!

上海交大工研院、饿了么、每日互动、复星医药、道通集团、桔子数科、奇富科技、云司科技、2025年最后一期,由Datawhale联合上海科学智能研究院、科大讯飞。提供就业绿通名额和实习机会的有:上海科学智能研究院、旨在汇聚产学研资源和开源社区力量,为学习者提供。、阿里云百炼等国内头部产学研机构共同主办。面向未来培养就业能力的春季AI集训活动,只要你对AI方向感兴趣,有热情。面向在校学生、在职学习者。项目实践与就业绿通机会。提供实践与就业绿通机会。实践项目 + 学习成果。最后一期正式开放报名。

2025-05-11 23:16:32 239

原创 五月组队学习,开设青少年编程课程!

CCF编程能力等级认证,英文名Grade Examination of Software Programming(以下简称GESP),由中国计算机学会发起并主办,是为青少年计算机和编程学习者提供学业能力验证的平台。GESP考察语言为图形化编程、Python编程及C++编程,主要考察学生掌握相关编程知识和操作能力,熟悉编程各项基础知识和理论框架,通过不同等级的考试目标,让学生具备编程从简单的程序到复杂程序设计的编程能力,为后期专业化编程学习打下良好基础。备考GESP C++等级考试的中小学生。

2025-05-11 16:49:44 931

转载 给MCP加上RAG,工具准确率提升200%,起飞~

测试中,候选MCP服务器的数量从1增加到11100,每次试验中随机选择一个“真实”MCP(唯一能满足任务需求的工具)和若干干扰项(distractors)。:随着可用的MCP(Model Context Protocol)服务器数量增加,将所有工具描述包含在单个提示中会导致提示过长,消耗大量token,并降低模型区分和回忆正确工具的能力。:与传统MCP客户端相比,RAG-MCP仅激活选定的MCP,降低了启动成本,并支持任意大小的工具集,而无需担心基础设施瓶颈。:用户的自然语言任务被编码并提交给检索器。

2025-05-11 15:46:04 55

转载 Datawhale x 萨里国际学院:开源生态+国际化办学标杆,联合培育未来AI商科人才!

经过激烈角逐,评选出一等奖1组、二等奖3组、三等奖7组及优胜奖5组(小组名单附后)。该项目凭借其前瞻性的教育理念与创新的实践模式,吸引了200余名本科生及80余名校友、教师的踊跃参与,共同探索AI与经管学科深度融合的无限可能,致力于培育兼具专业素养与商业智慧的AI复合型人才。展望未来,萨里国际学院将继续紧跟AI与商科融合的发展潮流,不断优化项目设计,深化产学研合作,为学生提供更多贴近实际的AI+商用场景,助力他们更好地理解并掌握AI与商科的融合之道,在未来的职业生涯中脱颖而出。联合举办:萨里国际学院、

2025-05-09 22:18:18 45

转载 何恺明的ResNet,成为21世纪被引量最多论文,Nature最新统计

此外,还有关于 G*Power 的论文,该软件是一个免费工具,为生物学家提供计算实验规模以获得统计显著性结果的便捷方法,也是高被引的。该论文是本世纪引用次数第 7 高的。三年后,一篇对 AlexNet 架构进行修改的论文描绘了一种称为 U-net 的新网络,其在图像处理上更高效,现排名第 12,当时该论文差点因缺乏新意而被会议拒绝。不过,21 世纪的重大突破不只是 AI 领域,希格斯玻色子的发现、引力波的首次测量等都称得上巨大的进步,然而,这些突破性成果在 2000 年以来被引用量最高的论文中却无一上榜。

2025-05-09 17:27:02 46

转载 通义灵码新增智能体+MCP!个人免费用!

MCP服务通过智能解析设计稿结构与样式规则,自动生成符合企业设计规范的前端代码,实现高保真视觉还原与多端适配,减少人工编写重复代码的工作量,保障代码可维护性。通义灵码 IDE 插件在智能会话中支持选择推理服务模型。今天,只需一句话——“帮忙根据设计稿开发页面”,通义灵码就能调用 MCP 工具读取设计稿,根据用户的编码习惯,选择合适的技术栈、自动创建好工程文件、定义开发规范,实时反馈生成效果,甚至生成研发文档。重启 IntelliJ IDEA 后,单击侧边导航的通义灵码,在通义灵码助手的窗口单击登录按钮。

2025-05-08 23:38:12 120

转载 中国 AI 投资人:练习时长两年半

大模型的序章结束了。模型的故事发生了一些微妙的变化,比如,没人敢说中国模型不行了。所有投资人都告诉我们:「这个真的要感谢 DeepSeek」。也要感谢 Manus,他们最先搭出了一个产品,证明了产品的技术栈正在变复杂。复杂会带来多元,多元意味着更多可能性。Manus 也证明了一句大家前两年还有点心虚的话:应用是中国公司的主场。变化有目共睹,或许「下半场」的判断还为时尚早,但这一定是新的篇章,Chapter 2。越来越多的应用创业者下场,老牌的美元 VC 重新活跃起来,消费、硬科技、纯人民币基金开始频繁找 A

2025-05-08 12:58:56 88

转载 本地部署大模型实现扫描版PDF文件OCR 识别,笔记本可跑

不仅能处理复杂的图像场景,还能理解文本的结构,保留格式,并正确处理表格、标题等内容,为后续的文本分析、自动化处理和智能搜索提供强大的支持。模型是可选的,只需调整参数即可切换到其他模型。没有,它表示模型能够处理图像和文本输入,符合我们的任务要求。点击进去,首先看到的是一批新发布的模型,这样的强大模型,具备非常强的从图片中提取文本的能力。上转化一页需要六、七分钟,虽然有点久,但至少也能跑起来了,而在。的智能文档处理方式,正在成为解决实际问题的强大工具。这个关系图展示了三者之间的依赖和协作,具体如下,

2025-05-07 22:21:23 85

转载 陶哲轩:感谢ChatGPT,4小时独立完成了一个开源项目

陶哲轩不止一次借助大模型进行研究,他曾在 GPT-4 的帮助下成功解决了一个数学证明题(GPT4 提出了 8 种方法,其中 1 种成功解决了问题),还在 AI 的帮助下发现了自己论文中的一处隐藏 bug。陶哲轩将二人的讨论结果写成了一篇博客,重点讨论了更简单的渐近估计情况,即涉及有限数量的正实数,并使用加、乘、除、指数、最小值和最大值(但不包括减法)等算术运算进行组合。在整个过程中,陶哲轩不断询问,ChatGPT 也做到了有问必答,不管是简单的问题,还是复杂的问题,ChatGPT 都给解决了:。

2025-05-07 17:14:55 42

转载 刚刚,OpenAI正式官宣放弃「营利性转型」!

许多人能够想象到一个可以告诉科学家如何行动的神谕(oracle)式 AGI,尽管这可能极其危险,但 OpenAI 早期的很多人认为,这样的系统交由少数几位值得信赖的人掌控是可以接受的。这样一来,非营利组织将获得充足资源,用于开展各类项目,确保 AI 能够造福不同的群体,与我们的使命相符。我们惊叹于人们用我们的工具所创造的成果,以及人们如此渴望使用这些工具的程度。我们希望赋予用户在广泛范围内使用我们工具的极大自由,即使我们并不总是拥有相同的道德框架,我们也希望让用户自主决定 ChatGPT 的行为。

2025-05-06 12:33:32 44

原创 第二期新增学习内容:Agent开发!

2025 AI春训营第二期最后一个方向:Agent开发。Datawhale AI春训营新增Agent开发方向。旨在汇聚产学研资源和开源社区力量,为学习者提供。面向未来培养就业能力的春季AI集训活动,本期仅限学生报名,后续会有面向在职的。更新:Datawhale AI春训营。Datawhale发布。AI项目实践与就业机会。

2025-05-05 23:58:27 166

转载 大厂大模型必知的5种agent模式

执行者执行完一个任务后,会将结果反馈给计划器。:环境返回的结果被反馈给生成型语言模型(LLM - Generate),生成型语言模型根据结果生成最终的响应。:接收到用户的查询后,推理型语言模型(LLM - Reason)会分析查询并生成相应的策略或计划。:项目经理代理综合所有代理的结果,生成最终的响应(Response),返回给用户。:计划器根据任务完成情况和结果,生成最终的响应(Response),返回给用户。:基于用户的反馈,LLM对初步的响应进行反思,即重新评估和调整其生成的输出。

2025-05-05 17:48:32 52

转载 快手二面拷打:训练100B模型要多少显存?

该手段相对来说是使用频率最高,且一般不会影响运算的精度,可以用 2 节中的计算公式为参考去设计新的 TP/PP/DP/Zero/重计算的相关参数来降低显存消耗。根据数值的变化,可将显存消耗分为静态/动态值。混合精度的单层的数据配置一般如下图所示,需要注意的是 master weights 只要算一次,要么在优化器中计算要么在模型中计算,这里默认在优化器中考虑。本文围绕大模型的训练/推理场景,介绍 Transformer 类模型的显存计算公式,帮助读者能更好的了解全局显存的组成以及如何优化显存。

2025-05-04 23:13:26 52

转载 2025巴菲特股东大会800字精华版来了(附全文)

提问来自一位波兰女士,她说,74年前的1951年1月,巴菲特曾搭乘火车8个小时去华盛顿,只为了解保险的知识,并一直坚持走在这条道路上,这是一段非常打动人的经历。我刚刚提到了几位过去跟我合作、共事的人,也许他们做的事情规模比不上我,但他们是我非常喜欢的人,和他们相处,对我来说意义重大。全世界有80亿人,美国只有3亿多人,如果你生活在这里,那你已经在这个游戏中处于领先位置了,你应该好好利用这一点。巴菲特说,从1920年到现在的变革,从1776年到现在,我们做了很多事情,也花了很长时间。这是一个越来越大的业务。

2025-05-04 16:16:34 56

转载 蚂蚁集团全球招募顶尖 AI人才

⬇️点击阅读全文,一键投递简历。Datawhale分享。

2025-04-25 22:08:44 142

原创 扣子空间+自定义MCP,我的学习搭子来了!(附邀请码)

以Datawhale AI春训营中的赛事项目学习为例,最煎熬的就是不理解背景了,赛题的背景决定接下来的学习目标和重心。这里扣子空间有一个独特的亮点,它能够与飞书文档、飞书多维表格打通,这是扣子的生态优势。在这一步,思路和策略是最重要的,也是比赛上分的关键。常用的 MCP 扩展如下所示。规划模式下,当我们对生成后的结果提出修改意见时,AI会先跟我们确认思路是否正确,然后再进行下一步行动,具备了一定的主动性。,我将从0到1用扣子空间,创建我的学习搭子:理需求,打比赛、写代码、上分思路,通通让我的搭子帮我搞定。

2025-04-24 22:01:20 1299

用Python解决数据结构与算法问题

一本关于python版本极佳的数据结构和算法相关教材 而掌握算法和数据结构是拿到好offer必备的核心技能!

2018-08-22

机器学习_数学基础_精选教材(概率,线代,微积分)

普林斯顿微积分读本高清中文版 概率论与数理统计 - 陈希孺 MIT线性代数导论_Introduction to Linear Algebra, 4th 每一本都是经典之作,和国内同济版相比,通俗易懂,易于自学。 奠定机器学习数学基础,三本教材就够了!!!

2018-08-09

Airbnb 新用户的民宿预定预测-数据集

Airbnb 新用户的民宿预定预测 kaggle比赛完整数据集 主要包含5个csv文件

2018-06-20

Python数据分析与挖掘实战(高清带标签+源代码)

10余位数据挖掘领域资深专家和科研人员,10余年大数据挖掘咨询与实施经验结晶。从数据挖掘的应用出发,以电力、航空、医疗、互联网、生产制造以及公共服务等行业真实案例为主线,深入浅出介绍Python数据挖掘建模过程,实践性极强。 本书共15章,分两个部分:基础篇、实战篇。基础篇介绍了数据挖掘的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例实践获得数据挖掘项目经验,同时快速领悟看似难懂的数据挖掘理论。读者在阅读过程中,应充分利用随书配套的案例建模数据,借助相关的数据挖掘建模工具,通过上机实验,以快速理解相关知识与理论。 基础篇(第1~5章),第1章的主要内容是数据挖掘概述;第2章对本书所用到的数据挖掘建模工具Python语言进行了简明扼要的说明;第3章、第4章、第5章对数据挖掘的建模过程,包括数据探索、数据预处理及挖掘建模的常用算法与原理进行了介绍。 实战篇(第6~15章),重点对数据挖掘技术在电力、航空、医疗、互联网、生产制造以及公共服务等行业的应用进行了分析。在案例结构组织上,本书是按照先介绍案例背景与挖掘目标,再阐述分析方法与过程,最后完成模型构建的顺序进行的,在建模过程的关键环节,穿插程序实现代码。最后通过上机实践,加深读者对数据挖掘技术在案例应用中的理解。

2018-06-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除