强化学习曾小健
"强化学习曾小健2、AI生成曾小健2、我是机器人曾小健具身"都是该号副号。CSDN全站百强博客、总近450w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、AI相关技术、机器人具身智能技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
大模型中的 Reward Model:ORM、PRM、PPO、DPO
PPO 和 DPO 的最大区别是 PPO 是强化学习的两阶段范式,先生成,再判别,再根据判别结果优化,但 DPO 其实是离线生产了一批正样本数据集,还是监督学习范式,所以 PPO 又被称为 On-policy,而。显然,PRM 的上限更高(ORM 甚至可能存在结果正确但过程不正确的情况),但同时要求 Reward Model 能够正确的判别每一步的结果,显然对 Reward Model 的要求更高。可以在大模型输出的多个结果中选择更好的一个,更重要的是,判别结果可以某种损失的形式回传,优化大模型。原创 2025-02-21 05:31:14 · 226 阅读 · 0 评论 -
通义千问团队开源全新的过程奖励模型PRM!
Qwen团队发布了两个 PRMs,即 Qwen2.5-Math-PRM-7B 和 Qwen2.5-Math-PRM-72B,它们分别在 Qwen2.5-Math-7B-Instruct 和 Qwen2.5-Math-72B-Instruct 上进行微调得来,两个 PRM 模型的数据利用率和评测性能表现均显著提高。此外,与现有的PRMs相比,Qwen2.5-Math-PRM-7B 和Qwen2.5-Math-PRM-72B 都显示出显著的优势。2025年01月18日 12:45。原创 2025-02-21 05:07:22 · 630 阅读 · 0 评论 -
谷歌发布 AI co-scientist:独自提出可验证科学假设,已有多项科研成果
谷歌首席执行官 Sundar Pichai在 X 上表示,在 AI co-scientist 的帮助下,人类科学家已经“在肝纤维化治疗、抗菌素耐药性和药物再利用等重要研究领域看到了。原创 2025-02-21 04:54:54 · 1035 阅读 · 0 评论 -
MustDrop:多阶段去除冗余视觉token,提升多模态大模型推理效率
MustDrop。原创 2025-02-21 05:05:24 · 626 阅读 · 0 评论 -
谷歌:数据有效的强化学习正在改进Transformer 世界模型
强化学习(RL)(Sutton和Barto,2018)提供了一个框架,用于训练智能体在环境中行动,以最大化它们的奖励。本文研究了基于Transformer World Model世界模型(TWM)的MBRL方法在Craftax-classic环境中的改进。尽管这些MBRL基线利用了生成世界建模的最新进展,但它们在很大程度上被我们最佳的MFRL agent所超越。这促使我们改进我们的MBRL agent,其中我们将在接下来的几节中进行探讨。原创 2025-02-21 05:46:15 · 829 阅读 · 0 评论 -
【技术名词解读】图解注意力机制发展:MHA→MQA→GQA→MLA
1.背景在 Transformer 模型中,注意力机制是核心组件之一。传统的为每个头(head)分配独立的查询(Query)、键(Key)和值(Value),虽然表达能力强大,但计算和内存开销较高。而通过共享键和值,显著减少了计算量,但可能会损失一定的表达能力。通过分组共享键和值,既降低了计算开销,又保留了较强的表达能力。2.GQA 的核心思想GQA 的核心思想是将查询(Query)分成若干组,每组共享相同的键(Key)和值(Value)。原创 2025-02-21 13:46:07 · 875 阅读 · 0 评论 -
Transformer²要做「活」的AI模型,动态调整权重,像章鱼一样适应环境
如表 2 所示,所有的 Transformer^2 适应策略都在 LLAMA3-8B-INSTRUCT 基础模型的所有任务上表现出性能提升,在 MISTRAL-7B-INSTRUCT-V0.3 和 LLAMA3-70B-INSTRUCT 的三个任务中至少有两个任务有所改进。在推理时,该研究采用三种不同的策略来检测任务的身份并相应地调整模型的权重。每个 z 向量可以被视为任务的专家,是一个紧凑的表征,负责指定权重矩阵中每个组件的所需强度,形成一组「放大器」或「衰减器」来调节不同组件对模型行为的影响。原创 2025-02-21 05:03:59 · 859 阅读 · 0 评论 -
看DeepSeek R1的论文时,我突然想起了AlphaGo
读完论文,其实我唯一的疑惑就是,不在600B这么大规格的模型上,而是在100B甚至更小的模型上,能否走通这个路线。不过不管怎么说,R1这篇论文都是对我的极大鼓舞,起码后面多了一个比较明确的尝试方向。原创 2025-02-21 05:27:02 · 288 阅读 · 0 评论 -
腾讯、华为等接入DeepSeek每月亏损超4亿,MaaS模型即服务将要被颠覆了?|钛媒体AGI
亦或是行业特有场景的商业化落地都将会是今年市场关注的重点。原创 2025-02-21 05:00:38 · 659 阅读 · 0 评论 -
单卡4090通过GRPO训练QWen2.5基础模型复现Deepseek-R1关键思路
原创 疑似地上霜2025年02月18日 22:01浙江本文在4090卡上复现如下 blog提到的训练过程,这个过程体现了的关键RL思路:原文:Train your own R1 reasoning model with Unsloth (GRPO):https://unsloth.ai/blog/r1-reasoning。原创 2025-02-21 13:44:50 · 445 阅读 · 0 评论 -
【手撕NSA】DeepSeek新作-原生稀疏注意力-超长文(附代码)
花了半天时间按照原论文公式手撕了核心算法NSA,将本文对应的notebook分享到git,希望能帮助大家理解:NSA精度优于MHA相当,那么NSA大概率是DeepSeek-V4 base的一个核心设计NSA速度在64k inference相较 Flash Attention 前向加速9倍,反向加速6倍。NSA原生稀疏性对于pretrained是必要的,我认为**NSA。原创 2025-02-20 09:36:53 · 752 阅读 · 0 评论 -
DeepSeek用的GRPO占用大量内存?有人给出了些破解方法
在应用 GRPO 之前,该模型在保留测试集上达到了约 19% 的准确率,而在经过一个训练周期后,模型的准确率飙升至约 40.5%。然后,像 AdamW 这样的优化器需要更多的空间,因为它们就像一个记录员,跟踪最近的更新历史,以便更好地决定未来的优化。GRPO 的最小代码量大约只有 99 行,如果你使用的是像 meta-llama/Llama-3.2-1B-Instruct 这样的小型模型和像 openai/GSM8K 这样的数据集,可以非常快速地启动。上下文或生成的 token 越多,需要的内存就越大。原创 2025-02-21 05:23:02 · 347 阅读 · 0 评论 -
谷歌开源PaliGemma 2 Mix,新玩具还是饭碗终结者?
三种参数规模:提供 3B、10B、28B 参数版本,小到轻量设备,大到高性能服务器,总有一款适合你。任务迁移无障碍:无需为每个任务定制架构,简单微调即可适配新场景,灵活性拉满。顶级性能:在图像描述、OCR、目标检测等任务中,PaliGemma 2 Mix 达到业界领先水平,媲美甚至超越专用模型。原创 2025-02-21 18:03:47 · 672 阅读 · 0 评论 -
刚刚,DeepSeek放出重磅论文!梁文锋亲自参与!
DeepSeek 的 NSA 技术为长文本建模带来了新的突破。它不仅在性能上超越了传统的 Full Attention 模型,更在效率方面实现了显著的提升,尤其是在长序列场景下。NSA 的硬件友好设计 和 训推一体化特性,使其在实际应用中更具优势,有望加速下一代 LLM 在长文本处理领域的应用落地。这项研究无疑为稀疏注意力领域带来了新的思路和方向。未来,我们期待看到更多基于 NSA 技术的创新应用,共同推动 AI 技术的进步!原创 2025-02-22 22:37:52 · 546 阅读 · 0 评论 -
QAnything引擎升级技术通告:DeepSeek-R1适配实践与效果验证
评估标准包括:是否为列举的信息提供了简短的解释或上下文;是否在提供直接答案的同时,也给出了相关的补充信息,增强了检索结果的价值。是否在提供客观信息的同时,也给出了应用这些信息的建议或见解(如适用)。我们之前用GPT4o等模型的时候,需要写很多类似COT的prompt,引导模型做一步一步的深度思考,还有一些few shot的例子。在适用的情况下,是否提供了明确的选择建议或决策支持;(虽然RAG的各个环节都可以受益于R1这样的推理模型,但是这次实验我们先看下其他东西都不变,仅改变最后的大模型,有什么样的变化。原创 2025-02-22 22:08:32 · 736 阅读 · 0 评论 -
谷歌发布 AI co-scientist:独自提出可验证科学假设,已有多项科研成果学术头条
谷歌首席执行官Sundar Pichai 在 X 上表示,在 AI co-scientist 的帮助下,人类科学家已经“在肝纤维化治疗、抗菌素耐药性和药物再利用等重要研究领域看到了。原创 2025-02-22 22:59:07 · 569 阅读 · 0 评论 -
一起读LLM算子库之turbomind(2)
所以上面的公式是帮我们确定本线程需要的第一个元素的位置在哪里,之后我们通过再+4访问到第二个线程并拿到其中的数据。根据之前实现的运算符,我们首先实现了一个array to array的二元运算关系式。在template上turbomind定义了T和N两个模版参数,分析后续的using能发现这分别代表着输入数据的dtype的数组的长度。这段代码实现了一个数据拷贝的实现,这里turbomind把数组的按照要存储的类型进行转换。我们在这里画一张图加深理解后边的操作,下面是一个8x8的矩阵,和它们对应的线程。原创 2025-02-22 23:10:56 · 769 阅读 · 0 评论 -
马斯克推出的Grok3,DeepSearch模式有点强
GraphRAG 的架构分为两个主要组件:索引管道和查询引擎。•索引管道:负责处理输入文本,生成知识图谱和社区总结,为后续查询提供结构化数据。•查询引擎:利用索引数据,通过多种搜索方法(全球搜索、本地搜索和 DRIFT 搜索)回答用户查询,提供准确且全面的响应。其高层次工作流程包括:文本预处理:将输入文本分割成小单位。知识提取:使用 LLM 提取实体、关系和声明。图构建与聚类:基于提取数据构建知识图谱,并使用 Leiden 技术进行社区检测。总结生成:为每个社区生成描述其内容的总结。原创 2025-02-22 23:07:46 · 707 阅读 · 0 评论 -
Grok3 DeepSearch深度体验:Agent就是Reasoning ModelAINLP
已经数不清这是最近发布的第几个AI搜索的Agent产品了,相对来讲Grok3 DeepSearch在产品形态上是最丰富和“大方”的一个。形态上可以分为3大块,分别是:思维展示框:在模型思考过程中,这里的内容会一直变化,告诉用户Agent当前的内心活动以及执行的动作。同时,这里也会将检索到的页面展示出来模型底层的思考内容:思考展示框下面有一个“show thinking”的按钮,点击可以看到文本形式的完整的思考过程。从这里面可以看到模型对工具的调用路线,以及对结果进行分析的过程。原创 2025-02-22 21:55:24 · 1046 阅读 · 0 评论 -
强化学习产业化探索
我说辛苦确实还挺辛苦的,但是说卷好像是谈不上,来之前我做了一个粗略的调研,报告说目前国内"大模型"的初创企业已经超过了300家,具身智能的初创企业也超过了100家,那你听说过多少强化学习的初创公司呢,是不是只听说过南栖仙策,说明我们强化学习这个行业一点也不卷嘛,哈哈。(具体的调查结果可见前面的知乎文章)。除了在传统工业控制领域之外,公司还在赋能高精尖设备的制造,这里举一个蒸镀机的例子,蒸镀机是用来给物体镀一层金属薄膜,并且对这个膜的厚度和均匀度有着非常高的要求,长期以内,我国蒸镀机一直依赖于国外进口。原创 2025-02-22 21:57:34 · 711 阅读 · 0 评论 -
马斯克推出的Grok3,DeepSearch模式有点强
GraphRAG 的架构分为两个主要组件:索引管道和查询引擎。•索引管道:负责处理输入文本,生成知识图谱和社区总结,为后续查询提供结构化数据。•查询引擎:利用索引数据,通过多种搜索方法(全球搜索、本地搜索和 DRIFT 搜索)回答用户查询,提供准确且全面的响应。其高层次工作流程包括:文本预处理:将输入文本分割成小单位。知识提取:使用 LLM 提取实体、关系和声明。图构建与聚类:基于提取数据构建知识图谱,并使用 Leiden 技术进行社区检测。总结生成:为每个社区生成描述其内容的总结。原创 2025-02-22 23:33:37 · 714 阅读 · 0 评论 -
DeepSeek-R1技术剖析:没有强化学习基础也能看懂的PPO & GRPO
在强化学习里,我们把每一周看作一个时间步。我的当前状态(State)可能包括:我当前的学习水平、疲劳程度、对下一次考试范围的掌握度;我上一场考试的得分;甚至我当前的心情(如果要更真实的话……)。然后,我做出的动作(Action)可以是:“去参加某辅导班”、“自主复习”、“放空休息”等等。当。原创 2025-02-22 22:19:02 · 1065 阅读 · 0 评论 -
深度|Salesforce CEO:Agent正是开启 “无限劳动力” 时代的起点
Bloomberg2025年02月22日 12:39北京图片来源:Bloomberg。原创 2025-02-22 23:06:36 · 814 阅读 · 0 评论 -
AI写代码新姿势:一个截图,代替千行代码
整体来看,它是企业级一站式模型开发与管理平台,集成模型管理、精调、推理、评测等功能,提供多种开源和闭源大模型,基于SenseCore万卡集群,支持实时调用、快速扩缩容,兼容国产芯片和异构算力管理。简单来说,LazyLLM是一个面向开发者的一站式、开源的,可构建多Agent大模型应用开发框架,能协助开发者用极低的成本,构建复杂的AI应用,并可以持续迭代优化效果。方面,代码小浣熊2.0在写代码的时候,不管是单行的代码,还是好几行连在一起的,它都能帮着补全,要是有不对的地方,也能帮着改。原创 2025-02-22 21:48:33 · 941 阅读 · 0 评论 -
请详述rlhf和ppo、dpo的异同和优劣
DPO(Direct Preference Optimization)是一种优化方法,旨在直接优化模型以符合人类偏好,而无需依赖复杂的强化学习框架。它通过最小化损失函数来学习直接偏好数据,从而优化模型的表现。原创 2025-02-22 22:30:47 · 744 阅读 · 0 评论 -
Perplexity AI:通过OpenAI与DeepSeek彻底革新搜索和商业策略
Perplexity AI正在为未来的智能搜索技术铺路,结合了OpenAI的语言模型和DeepSeek的搜索优化。通过提供更相关、更个性化和富有洞察力的搜索结果,Perplexity不仅仅是另一个搜索引擎——它是一个智能的AI助手,懂得你的需求。无论你是在寻找复杂问题的答案,还是想要更具上下文的搜索结果,Perplexity都是值得关注的平台。🌟。原创 2025-02-22 22:47:10 · 783 阅读 · 0 评论 -
o3时代:数据治理与大小模型的趋势
不仅是技术效率的优化,更是智能化社会的基础设施革命。通过全局数据治理,企业得以打破数据孤岛、确保合规性与安全性;而小模型则渗透至终端场景,将数据价值转化为实时、低耗的智能服务。这种“中枢-边缘”协同模式,正推动AI从集中式算力垄断走向分布式普惠赋能。当然,技术与战略的进步必须与。原创 2025-02-24 15:06:06 · 552 阅读 · 0 评论 -
8分钟,Grok 3破解美国本科生最难数赛题!马斯克要用100万GPU反超「星际之门」?
除了正在部署的10万台GB200算力集群外,分析师估计,他们还将在整个园区部署另外20万台GB300和约40万台VR200(英伟达计划在2026年推出的超算,分别对应Vera CPU和Rubin GPU)。物理学家Luis Batalha在x上表示,2025年的普特南竞赛上,即使是前500名的顶尖选手,也无人能完整攻克下面这道难题。根据与亚特兰大经济发展机构之一Develop Fulton签署的协议中列出的设备清单,两家公司将共同部署约12,000个英伟达GPU,其中大部分将被用于AI计算。原创 2025-02-24 15:04:02 · 628 阅读 · 0 评论 -
颠覆认知!程序员真要失业了,中国MetaGPT团队造出全球首个AI“软件公司“
成本革命:省去人力招聘与培训,开发成本骤降!极速交付:传统需数周的项目,MGX可在数小时内完成!国产之光:继DeepSeek后,中国团队再次引领AI编程潮流,技术实力比肩Cursor、Anthropic等国际产品!灵活扩展:支持API集成与团队协作,无缝衔接现有开发流程!感觉MGX正朝着“AI Society”演进,未来将形成智能体自主协作的生态,用户可像管理真实团队一样调度AI代理!从我的历史文章可以看出,我还是依旧非常看好MetaGPT团队的,希望他们能继续加油,做出更多好用的产品。原创 2025-02-24 11:02:55 · 604 阅读 · 0 评论 -
月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用
• 方程豹(比亚迪旗下高端新能源个性化品牌)推出全球首款兼具“天神之眼”和“乾崑智驾”两大高阶智驾系统的硬派SUV车型——豹5智驾版。• 比亚迪天神之眼系统自研,实现高速NOA和自主泊车功能,具备强大的数据和算力支持。• 方程豹通过DMO电四驱架构解决驾驶场景中的“二元对立”,并展示了智能化的优势。• 豹5智驾版通过比亚迪的统一架构,在多个车型上实现智能驾驶技术的平起平坐。• 豹5智驾版融合了华为、比亚迪和DMO架构的技术,展现了差异化优势。原创 2025-02-24 11:53:16 · 655 阅读 · 0 评论 -
一文搞懂DeepSeek - AI发展的五个级别
2025年02月18日 22:55。原创 AllenTang。原创 2025-02-24 16:23:24 · 1127 阅读 · 0 评论 -
o3 发布了,摔碎了码农的饭碗
这张人类在线编程竞技平台 codeforces 上面的图是关键——链接:这张图红框位置,就是 o3 模型的 Elo 得分(2727 分)所对应的排名(175 名)。这里要首先科普&强调一下,AI 在 codeforces 上面参与竞赛,是跟人类选手一样,在比赛时才会拿到赛题。如果高分参赛者输给了低分参赛者时,那么高分参赛者的 Elo 分数会下降,而低分参赛者的 Elo 分数会上升。理论上 AI 是不可能在训练阶段见过这些赛题的。原创 2025-02-24 14:53:05 · 729 阅读 · 0 评论 -
Clio: Anthropic推出的首个用于了解AI使用情况的隐私优先工具
人们使用人工智能模型做什么?LLM迅速走红,像Claude这样的AI系统已经迅速融入人类生活的各个方面,但直到现在,我们对于它们究竟是如何被使用的,还知之甚少。了解人们实际如何使用语言模型十分重要,这不仅仅关乎好奇心,甚至也不只是社会学研究方面的问题,而是出于安全方面的考虑。供应商在部署前测试方面投入了大量精力,并运用信任与安全系统来防止滥用情况发生。然而,语言模型功能的庞大规模和多样性,使得了解它们的使用情况变得非常困难,更遑论进行任何全面的安全监测了。原创 2025-02-24 11:54:58 · 598 阅读 · 0 评论 -
一文说清楚什么是预训练(Pre-Training)、微调(Fine-Tuning)
原创 AI取经路AI取经路2025年02月19日 20:09山西-正文-预训练和微调是现代AI模型的核心技术,通过两者的结合,机器能够在处理复杂任务时表现得更为高效和精准。预训练为模型提供了广泛的语言能力,而微调则确保了模型能够根据特定任务进行细化和优化。1. 什么是预训练?1.1 预训练的关键点1.2 通俗类比2. 什么是微调?2.1 微调中的关键点2.2 通俗类比3. 预训练与微调的区别4. 总结-- 领取学习资料大礼包,见文末。原创 2025-02-24 11:56:42 · 809 阅读 · 0 评论 -
马斯克大力出奇迹,Grok3 把 o3 干翻了
就今天上午大约两个小时的快速测试来看,Grok 3 开启 Reasoning 思考能力感觉处于 OpenAI 最强模型(o1-pro,每月 200 美元)的最先进领域附近,并且略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。看官方放出来的评测图,我震惊了。在 Q&A 环节,他们表示将在几个月后对 Grok-2 进行开源,因为只有发布新一代模型之后,才会开源上一代的模型。就在刚刚,马斯克发布了 xAI 最新的模型:Grok-3 和 Grok-3 推理版!原创 2025-02-24 14:54:32 · 661 阅读 · 0 评论 -
Auto-Deep-Research:告别昂贵的Deep Research,拥抱开源的AI助手!
这是一个完全自动化、开源且经济高效的个人AI助手,基于强大的AutoAgent框架,让你的研究工作事半功倍。Auto-Deep-Research支持多种LLM提供商,配置方法大同小异,只需设置相应的API密钥,并在启动命令中指定模型即可。Auto-Deep-Research是一个充满潜力的开源项目,它将帮助你以更低的成本完成更高效的研究工作。的环境变量文件,填入你想要使用的LLM API密钥。首先,最好的是你需要一个干净的Python环境。:指定要使用的LLM模型,参考📌Litellm的命名规范。原创 2025-02-24 11:51:28 · 1089 阅读 · 0 评论 -
Cline v3.1:替代 Cursor 和 Windsurf 的性价比之选
比如,不要只说“Create a website”,可以更具体地写“Build a responsive portfolio with contact form and image gallery”,让 AI 输出更符合你需要的内容。它能把 Visual Studio Code(VS Code)变成一台真正免费的自动化 AI 编程助理——当然,模型的 API 调用本身可能仍需要付费,但至少工具本身不需要花钱。Cline 真的是一个好用又省钱的 VS Code AI 扩展,专治“编程疲劳”。原创 2025-02-25 02:26:47 · 679 阅读 · 0 评论 -
Grok 3冲击诺奖级突破,成证明「黎曼猜想」关键!AI与数学家打出终极组合拳
1859年,德国数学家伯恩哈德·黎曼(Bernhard Riemann)想出了一个研究质数的新办法,引入了一个叫黎曼zeta函数的东西,记作ζ(s)。简单来说,zeta函数是一个无限加法公式:这里的「s」是一个复数,复数是一种特别的数字,比如s = a + bi(a是实部,b是虚部,i是虚数单位)。这个函数的神奇之处在于,它跟质数的分布有很深的联系。原创 2025-02-25 03:19:08 · 1031 阅读 · 0 评论 -
《超大规模操作手册:在 GPU 集群上训练 》Part3(寻找最佳的GPU优化配置)
因此,计划很简单:运行每种模型的每种可能的分布式配置,以及多个集群大小(即每个节点8xH100的1-64个节点)。我们在前一节中稍微提到了这个问题,但现在详细地走一遍可能的决策过程,逐步进行,记住我们需要运行一些实验,以找到适合给定计算集群的最终最优设置,考虑其各种物理特性、网络带宽、每个节点的GPU数、每个GPU的内存等。我们实际上对数千种分布式配置进行了自我基准测试,涵盖了上述讨论的所有模型大小,以及能够尝试的非常大量的集群配置(即 8xH100s 的 1-64 个节点),可以用来复现本书中的结果。原创 2025-02-25 02:25:20 · 958 阅读 · 0 评论 -
究竟是Trae的免费优势还是Cursor的强大功能?深入对比!
Trae是字节跳动推出的一款免费的 AI 代码编辑器,灵感来自 JetBrains Fleet,采用现代简洁的 UI 设计,旨在为开发者提供一个轻量级且易用的编程工具。与大多数基于 VS Code 的编辑器不同,Trae 对 UI 进行了大幅度的优化,尤其是在图标和语法高亮方面,给用户带来了全新的视觉体验。Cursor是当前市场上领先的 AI 代码编辑器之一,拥有强大的代码生成、自动化测试等功能。虽然其界面设计相对简洁,但它的强大功能和高效性能让其在专业开发者中占有一席之地。原创 2025-02-25 03:18:18 · 3351 阅读 · 0 评论