2025年04月_强化学习曾小健

06月 05月 04月 03月 02月 01月

原创刚刚，Llama 4深夜开源击败DeepSeek V3！2万亿多模态巨兽抢回王座

本文转自：新智元支持1000万上下文单H100可跑2万亿参数巨兽一大早，Llama 4重磅发布了！Meta官宣开源首个原生多模态Llama 4，首次采用MoE架构，支持12种语言，首批发布一共两款：Llama 4 Scout：共有1090亿参数，17B活跃参数16个专家，1000万上下文Llama 4 Maverick：共有4000亿参数，17B活跃参数，128个专家，100万上下文另外，2万亿参数Llama 4 Behemoth将在未来几个月面世288B活跃参数，16个专家。

2025-04-06 21:23:29 838

原创谷歌为NotebookLM添加了网络搜索功能；微软发布了实时AI生成的《雷神之锤2》可玩演示版

NotebookLM是b谷歌的人工智能研究工具，它独特地依赖于用户提供的资源，而不是广泛的训练材料，以最大限度地减少人工智能的幻觉。目前还不清楚将完整的网络资源导入到NotebookLM是否会面临来自内容创建者的挑战，尤其是那些可能反对通过谷歌的工具而不是他们自己的网站访问他们的内容的出版商。虽然去年10月，NotebookLM的访问量达到了3150万，但它仍然落后于数十亿的访问量。谷歌通过新的网络搜索功能扩展了NotebookLM的功能，该功能可以帮助用户发现并将在线资源直接合并到他们的笔记本中。

2025-04-06 21:21:07 273

原创一文搞懂RAG技术范式演变及Agentic RAG：未来AI应用的基石

检索增强生成（RAG）代表了人工智能领域的一项重大进展，它将大语言模型（LLMs）的生成能力与实时数据检索相结合。虽然大语言模型在自然语言处理方面展现了显著的能力，但它们对静态预训练数据的依赖往往导致响应过时或不完整。RAG通过从外部动态检索相关信息并将其纳入生成过程来克服这一限制，从而实现上下文准确且最新的输出。图1：Agentic RAG概览。

2025-04-06 20:48:50 967

原创 ROS2机器人操作系统 - ROS1升级到ROS2

ROS机器人操作系统并不是传统意义的“操作系统”，而是一个机器人操作系统的中间件框架，通过这个通讯框架，在基于ROS的应用程序之间建立起了沟通的桥梁。ROS2基于DDS，不像ROS1依赖中心化的Master节点进行节点发现和管理，ROS2实现去中心化的节点发现机制，支持实时性、高可靠性通信，并允许通过配置QoS策略提升数据传输可靠性。（6）启动与生命周期管理：ROS1的roslaunch使用XML编写，ROS2的launch文件改用Python编写，支持更复杂的逻辑，如条件判断等。

2025-04-06 20:47:30 733

原创 Llama 4来了！DeepSeek R2、Qwen3迎来最强对手

Llama 4 Maverick 是同类中最佳的多模态模型，在编程、推理、多语言、长上下文和图像基准测试中超过了类似模型（如 GPT-4o 和 Gemini 2.0），并且在编程和推理方面与规模大得多的 DeepSeek v3.1 相当。而且 Llama 4 模型采用原生多模态设计，预训练阶段就是联合使用大量未标记的文本、图像和视频数据一起训练，但是 Llama 4 只支持图像做输入，并不支持 GPT-4o 的图像生成能力，所以 Llama 4 只能做视觉理解。

2025-04-06 20:44:39 911

原创 VSCode发布Agent+MCP，Cursor劲敌又回来了？

VS Code 正式推出 Agent Mode、MCP 支持和 BYOK 功能，标志着主流代码编辑器进入了一个新时代。这场 AI 编程革命才刚刚开始，而微软显然不想让 Cursor 等第三方产品独享这块蛋糕。作为开发者，你准备好拥抱这些新功能了吗？欢迎在评论区分享你的看法！关注我们，第一时间获取AI领域最新动态！"AI智见录" 期待与您相遇，在这里，我们用独特视角解读 AI 世界的每一个精彩瞬间，让科技与人文在此相融。

2025-04-06 20:42:50 875

原创 AIGC时代算法工程师的面试秘籍（第三十三式2025.3.17-2025.4.6） |【三年面试五年模拟】

【三年面试五年模拟】旨在挖掘&沉淀AI算法工程师在实习/校招/社招时所需的干货知识点与面试方法，力求让读者在获得心仪offer的同时，持续增强技术基本面。更多干货资源，大家可在文末查阅～大家好，我是Rocky。又到了定期学习《三年面试五年模拟》文章的时候了！本周期我们持续更新了丰富的AIGC面试高频问答，依旧干货满满！诚意满满！Rocky创办的《三年面试五年模拟》项目在持续帮助很多读者获得了心仪的AIGC科技公司和互联网大厂的算法岗offer，收到了大家非常多的好评，Rocky觉得很开心也很有意义。

2025-04-06 20:39:43 755

原创聊聊 LLM 推理引擎中，那些已经成为事实标准的优化方法

作者：进击的Killua原文：https://zhuanlan.zhihu.com/p/685706549本文主要是记录目前在各个LLM推理引擎中经常使用的一些方法。

2025-04-06 20:37:48 750

原创 ICLR 2025 Spotlight ｜合成数据伪装术 vs 大模型火眼金睛，中大&上海AI Lab提出合成检测基准LOKI

LOKI基准揭示了LMM在合成数据检测中的显著偏差。LOKI基准引入了多层次的细粒度标注体系，每个数据样本都附带真实/合成标签，并标注了更精细的异常细节，确保模型在识别异常特征时具备更强的可解释性。：LOKI支持主流多模态模型（如GPT-4o、Claude-3、LLaVA等）使用多种数据格式输入，涵盖视频、图像、文本、音频、点云等，全面评估LMM在复杂数据环境下的泛化能力。尽管在简单问题上表现良好，但在处理复杂合成数据检测任务时，其表现明显下降，甚至低于随机选择，显示出当前LMM在复杂任务上的不足。

2025-04-06 01:05:34 1038

原创 TPAMI 2025 | 国防科大提出RGBT-Tiny数据集与SAFit指标，推动小目标检测技术发展

现有数据集多聚焦单一模态（可见光或红外成像），且目标尺寸偏大、场景单一，难以满足实际需求，针对可见光-红外双模态（Visible-Thermal, RGBT）小目标检测的研究却鲜有突破。在无人机监控、自动驾驶、夜间搜救等场景中，小目标检测（如远处行人、微型无人机）一直是技术难点——目标尺寸小、背景干扰多、光照条件复杂。115组对齐序列、9.3万帧图像、120万标注，覆盖7类目标（如船舶、汽车、行人等）和8种场景（如海洋、湖泊、城市道路等）。RGBT目标检测（如UA-CMDet、CMA-Det）。

2025-04-06 01:03:18 633

原创大模型多语言能力来自哪？大模型是否有内部语言？英文上学习的知识可以用在中文吗？Anthropic最新研究解释大模型多语言能力机制

大模型内部是否存在一种通用的“思维语言”？但是这种对齐训练无法解释为什么大模型可以把英文学到的知识用中文表达出来，例如，你使用中文问大模型一个问题，如果大模型本身的中文训练数据中不包含这个知识，但是英文包含了，当前的大模型似乎也可以用中文很好的回答。特定的英语“引用”特征（就是说如果你的文本输入中有英文的引号这种）似乎参与了某种抑制机制，它会抑制其他语言相关特征（如中文“大”或法语“grand”）强化英语的默认输出（也就是说如果你不加“在某语言中说某词”这种表示，大模型会更倾向输出英文）。

2025-04-06 01:00:47 301

原创体验 DeepSite：用 DeepSeek-V3-0324 免费“氛围编码”，生成你的第一个 AI App

DeepSite 就是一个典型案例，这个刚刚在 Hugging Face 上开源的免费工具，直接接入了 DeepSeek-V3-0324，并尝试用“氛围编码”的理念，让用户通过自然语言描述“感觉”来生成应用。体验 DeepSite：用 DeepSeek-V3-0324 免费“氛围编码”，生成你的第一个 AI App。但DeepSite 的价值在于它免费展示了顶尖 AI 模型驱动下的低代码/无代码开发潜力，并为我们提供了一个观察和体验 DeepSeek-V3-0324 实际应用效果的窗口。

2025-04-06 00:43:29 275

原创 Alibaba推出Embodied-Reasoner，持续反思，自我纠错，破解任务规划难题！

在整个过程中，模型会不断生成多样化的思考内容，如：空间推理（根据房间布局和物体关系推断钥匙链可能的位置）、任务规划（制定搜索和放置的步骤）、自我反思（在搜索失败后调整策略）等，这些思考内容使得模型能够以一种连贯、逻辑一致的方式完成任务。例如，在一个任务中，目标物体隐藏在一个不那么显眼的位置，模型通过这一阶段的训练，能够生成更复杂的搜索路径，优先搜索可能性较高的区域，并在必要时调整搜索策略。例如，在面对一个需要在多个位置搜索的任务时，模型可能在未能直接找到目标物体后就放弃搜索，而不会尝试其他潜在的搜索地点。

2025-04-05 23:59:20 605

原创狂揽74.7K星 !!n8n! 再见扣子 , 搭配DeepSeek , 效率飞快 , 太6了

n8n 是一个灵活的开源自动化平台，支持 400+ 应用和服务集成，拥有强大的自定义代码能力，同时支持拖拽式操作，再复杂的流程都能轻松打造。更棒的是，DeepSeek的加入将其 AI 功能提升到新高度！专注高效互动，适合实时应用，成本极低。专为复杂推理任务设计，提供深度分析能力。结合 n8n，你可以在工作流中轻松嵌入 AI，并自托管保护数据安全，彻底解放生产力！

2025-04-05 23:58:35 634

原创如果本身熬夜避免不了，有什么办法能阻止鼻头长黑头？

首先，护肤方面，要强调温和清洁，避免过度清洁导致皮肤屏障受损，反而刺激更多油脂分泌。生活习惯方面，虽然避免不了熬夜，但可以提醒用户注意枕套清洁，避免细菌滋生，以及不要用手频繁触摸脸部，减少细菌感染的机会。最后，总结这些方法，强调即使熬夜，通过系统的护肤和生活调整，还是可以有效控制黑头的产生。另外，用户可能有挤压黑头的习惯，导致毛孔粗大和感染，所以需要强调不要挤压，使用正确的产品帮助黑头自然代谢。同时，保湿也很重要，保持皮肤水油平衡，减少因缺水导致的油脂分泌增多。的精华，抑制皮脂氧化，预防黑头颜色加深。

2025-04-05 23:56:49 543

原创为什么鼻头黑头挤完后喜欢长火疖子？

挤压黑头→破坏屏障→细菌感染→炎症反应→形成疖子。鼻部皮肤脆弱且易感染，粗暴处理会显著增加风险。科学护理比挤压更安全有效。嗯，用户问为什么挤完鼻头的黑头之后容易长火疖子。首先，我需要理解这两个问题的关联性。黑头是毛孔堵塞，而火疖子通常是由细菌感染引起的炎症，比如金黄色葡萄球菌。所以可能用户在挤压黑头时，导致皮肤受损，细菌侵入，从而引发感染。接下来，我要确认黑头挤压和火疖子形成的具体步骤。当挤压黑头时，手指或工具可能不干净，带入细菌。

2025-04-05 23:51:25 496

原创谷歌对齐大模型与人脑信号！语言理解生成机制高度一致，成果登Nature子刊

全脑分析的定量结果显示，对于每个单词，根据其语音嵌入（红色）和语言嵌入（蓝色），团队预测了每个电极在单词出现前 -2 秒到出现后 +2 秒（图中x 轴值为 0）的时滞范围内的神经反应。在语音生成过程中，IFG 中的语言嵌入（蓝色）明显先于感觉运动区的语音嵌入（红色）达到峰值，随后 STG 中的语音编码达到峰值。还有发表在Nature Communications另一篇论文中还发现，大模型的嵌入空间几何图形所捕捉到的自然语言中单词之间的关系，与大脑在语言区诱导的表征（即大脑嵌入）的几何图形一致。

2025-04-05 14:42:58 485

原创 swift GRPOTrainer类源码解析

如何处理 DeepSpeed Stage 3 参数收集。如何自定义训练回调以优化内存和数据加载。如何定义训练过程中的输入输出缓存结构。它是构建一个高效、可扩展的大模型训练框架的重要组件。*_args,**kwargs):else:else:= 'no':else:else:o-LatestPoe这段代码定义了类，是 Swift 框架下用于强化学习人类反馈（RLHF）的大模型训练器，集成了多个模块（如 vLLM、LMDeploy、DeepSpeed 等）。

2025-04-05 14:05:27 739

原创 DeepSeek新论文对post training的RL又进行优化：推理时Scaling以构建通用奖励模型

在这项研究中，我们探讨了如何通过增加推理计算来改进奖励建模（RM），以适应一般查询，即一般性RM的推理时尺度扩展，并进一步研究如何通过适当的学习方法提高性能计算比例的有效性。其中，x为查询，yi为第i个响应，rθ为由参数θ定义的奖励函数，R为奖励，C为文本评判，Si为yi的分数，fextract(⋅)从生成结果中提取奖励。默认设定中，Si为1至10的整数。不同奖励模型方法的比较如图2所示，奖励模型（RM）方法主要由奖励生成范式和评分模式决定，这两个因素本质上影响着奖励模型在推理时的可扩展性和输入灵活性。

2025-04-05 13:54:05 788

原创实战分享 - 如何用 Coze 搭建 BP 智能评估系统 02

因为我们必须清晰地声明这个 object 的所有键乃至子键，否则不被通过：插件的依赖包更新太慢（npmjs 上已经更新版本，但是 coze 这边要过好几个小时才能同步，新发布一个包倒是立即就能搜到），这在基于自己本地开发、快速迭代的库时是个灾难；以及。

2025-04-05 13:52:38 762

原创大模型时代终极提问指南：25条Prompt解锁AI全部潜能

案例：对比"写首诗" vs "写首七言绝句，包含'春'和'AI'，押平水韵"例："作为资深营养师，设计3天减脂食谱（每日热量<1500大卡）"指定必须包含的术语："回答需涉及'神经网络'和'损失函数'""重构以下Python代码，提升时间效率（Big-O分析）"用数字明确步骤："分三步：1...2...3..."万能公式："作为[领域]顶尖专家，请[具体指令]""列出可能引起头晕的5种神经系统疾病（附典型症状）""设计针对Z世代的元宇宙营销方案（预算<50万）"加入"逐步思考"指令可使逻辑严谨性提升58%

2025-04-05 13:42:49 815

原创末日时间表来了！前OpenAI研究员76页硬核推演：2027年ASI接管世界，人类成NPC2027年，AI究竟会如何接管人类？今天，前OpenAI研究员和同事们发出一篇「AI 2027」报告，长

2025年04月04日 17:25山西2027年，AI究竟会如何接管人类？今天，前OpenAI研究员和同事们发出一篇「AI 2027」报告，长达76页，做出了种种硬核预测。他们预测，在未来十年内，超人AI的影响将非常巨大，超过工业革命。为此，他们推演了一个场景，对超人AI可能的样子做出了最佳预测，这些预测是基于趋势外推、模拟演习、专家反馈、OpenAI 的经验以及之前的成功预测。根据报告，AGI和ASI的时间表大致如下。（其中一种可能性）

2025-04-04 19:23:06 640

原创末日时间表来了！前OpenAI研究员76页硬核推演：2027年ASI接管世界，人类成NPC

2025-04-04 19:22:19 1026

原创 R1 的一些认知：4 个经典误区

而是要看是否这些反思 pattern 帮助模型提高了准确率，或者说是，带反思 token 的 response 的 accuracy 是否真的高于 response 的平均 accuracy。此外，不同的 reflection pattern 对 accuracy 的贡献也不相同，try another approach 就是比 compute again 要高级一些，模型能不能在 reward 持续上涨的过程中，自发地提升优质 reflection pattern 的出现概率，也是我们要观察的重点。

2025-04-04 19:21:18 456

原创我问了问首个国产「沉思」AI：当AI有了自我意识，人类该怎么办？

自我意识是心理学中的一个核心概念，不同领域的学者对其定义有着不同的理解。从心理学角度看，自我意识是指个体对自身存在的认识和意识，包括对自己身体状态、心理活动以及与周围环境关系的多方面、多层次的认识、体验和评价[2]。在心理学领域，自我意识被定义为“个体对自身存在和身份的认知和意识，涉及了自我概念、自我认同和自我评价等方面”[20]。这种定义强调了自我意识的核心是对自己存在的认识，以及对自己身份的理解。从哲学角度看，黑格尔认为“自我意识就是把自我当作对象看的意识”[3]。

2025-04-04 19:20:13 862

原创 Nature重磅：DeepMind AI又一重大突破，1次配置解决150多种任务图片只需使用一种通用算法，就可以解决来自各个应用领域的各种任务，

在消融方面，他们在 14 个任务的不同集合上消融了鲁棒性技术和学习信号，发现所有鲁棒性技术都有助于提高性能，其中最显著的是世界模型目标的库尔巴克-莱伯勒平衡和自由比特，其次是返回归一化和用于奖励和价值预测的 symexp 双热回归。为了研究世界模型的影响，他们消除了 Dreamer 的学习信号，方法是阻止特定任务的奖励和价值预测梯度或与任务无关的重构梯度塑造其表征。，从零开始在《我的世界》中收集钻石的算法，可以在不进行大量实验的情况下，解决具有挑战性的控制问题，使强化学习具有更广泛的适用性。

2025-04-04 19:18:53 788

原创视觉SSL终于追上了CLIP！Yann LeCun、谢赛宁等新作，逆转VQA任务固有认知

2025年04月04日 00:02吉林来源 | 机器之心编辑｜蛋酱、杜伟在视觉问题解答（VQA）等多模态环境中，当前视觉自监督学习（SSL）的表现还比不上语言图像预训练（CLIP）。这种差距通常归因于语言监督引入的语义，尽管视觉 SSL 模型和 CLIP 模型通常在不同的数据上进行训练。在最近的一项研究中，Yann LeCun、谢赛宁等研究者探讨了一个基本问题：语言监督对于多模态建模的视觉表征预训练是否必要？

2025-04-04 19:17:41 957

原创万字回顾中国生成式AI大会！50+大咖演讲精华干货爆棚，来没来都值得收藏

中国生成式AI的每一次突破，从来不是某家企业的独角戏，而是产学研用协同攻坚的交响曲。开年DeepSeek的爆火，成为中国乃至世界生成式AI产业的关键拐点。它颠覆了“堆砌算力”的固有路径，开辟出一条“效率优先”的创新路径，催化开源、推理模型与AI Infra研发热潮，更为端侧AI与国产AI算力基础设施的落地应用注入了新动能。站在技术与产业共振的历史节点，我们每一个人，都正在见证和参与一场激动人心的技术跃迁。春天来了，生成式AI的浪潮更加波涛汹涌，未来正呼啸而至。

2025-04-04 19:16:50 747

原创刚刚，DeepSeek公布新论文，R2确定要来了吗？

动态计算优化论文可能提出在推理阶段动态调整模型计算路径的技术（如条件计算、自适应深度/宽度），根据输入复杂度分配资源，从而在保证精度的同时降低延迟与算力消耗。成本-性能均衡框架提出量化评估推理效率的指标（如每美元推理吞吐量），并通过自动化工具链实现模型压缩、量化、蒸馏等技术的协同优化，帮助企业在成本与性能间找到最佳平衡。生态适配性 R2的成功依赖于开发者社区的支持与主流框架（PyTorch、TensorFlow）的兼容性，DeepSeak需构建完善的文档与案例库。

2025-04-04 19:15:24 948

原创人形机器人标准化来了！十大核心趋势与产业全景全析

注：本文基于《人形机器人标准化白皮书（2024版）》核心内容提炼，关注我，留言邮箱，可发送完整版源文件。广义定义：拥有人类部分或全部特征（形态、语言、智能），可执行复杂任务的机器人。2020年至今：智能化爆发（特斯拉Optimus工厂应用、大模型赋能决策）。上游：精密减速器、伺服电机、传感器（日企占70%核心部件市场）。政策支持：北京、上海等地先行试点，推动“技术-标准-产业”协同。标准体系框架：基础通用、零部件、模块、整机、安全测评五大层级。生态：操作系统（ROS2适配）、仿真训练平台、人机交互协议。

2025-04-04 19:14:16 515

原创最伟大的技术管理者有哪些

最伟大的技术管理者不仅是技术专家，更是战略家、伦理思考者与生态建筑师。将技术深度与商业敏锐性结合，以创新解决人类社会的根本问题。随着AI、量子计算等技术的突破，新一代技术管理者需在变革中重新定义领导力的边界，而这正是推动全球持续进步的核心动力。

2025-04-04 03:21:08 692

原创【大模型架构解析】万字长文带你了解大模型中的NLP基础知识

自然语言处理（Natural Language Processing，NLP）是一门结合了计算机科学、人工智能和语言学的学科，旨在让计算机能够理解、生成和处理人类语言。NLP 的核心目标是使机器具备与人类交流的能力，无论是书面语言还是口头语言。近年来，随着深度学习和大数据的发展，NLP 技术取得了显著的突破，被广泛应用于机器翻译、文本摘要、情感分析、自动问答、语音识别等多个领域。NLP 主要涉及多个关键任务，如分词、词性标注、句法分析、命名实体识别和语义理解等。

2025-04-04 02:07:46 993

原创英伟达扔出AI核弹：Cosmos-Reason1炸穿物理世界次元壁！

Cosmos-Reason1的恐怖之处在于：它能通过视频流实时解构三维空间，像人类一样理解"重力会让松动的扳手坠落"这种常识，甚至预判"暴雨中打滑的卡车需要提前0.3秒修正方向"。当其他模型还在纠结"图片中的椅子能否坐人"，Cosmos-Reason1已经能推演"这把椅子承受200斤重量时的应力分布"。当全球科技媒体还在咀嚼GTC大会的芯片参数时，英伟达突然甩出王炸——这个能让机器人自主思考、让自动驾驶车辆预判未来的物理世界大模型，正在用560亿参数的算力狂潮，将AI竞赛推进到三维战场！

2025-04-04 02:04:31 282

原创 OpenAI“投敌”Anthropic引爆AI圈！MCP协议：一场注定改写历史的“AI标准暗战”

试想：当AI回答“2025年Q1财报”，直接调取财务系统的MCP服务器，而非凭记忆瞎编——这正是OpenAI敢承诺“响应准确性提升40%”的底气。而MCP直接掀了桌子——它给AI模型装上“万能插头”，让文件系统、数据库、开发工具秒变“即插即用”的USB外设。OpenAI表面支持开源，实则用“去中心化”话术瓦解AWS、Azure的云服务霸权——堪称教科书级的“农村包围城市”。当OpenAI、Anthropic、微软、谷歌悉数入场，MCP早已不是技术问题，而是AI时代的“标准制定权”争夺战。

2025-04-04 02:02:47 663

原创在后LLM时代，关于新一代智能体的思考

2022年末，以ChatGPT为代表的大语言模型（LLM）正式发布，智能体（Agent）研发领域仿佛搭上高速列车，进入了飞速发展的快车道，各类智能体及智能体工具平台（Agent Builder）不断涌现，AI加速落地。同年11月，OpenAI推出GPTs和GPT商店，用户无需编码即可创建个性化GPT，进而成功搭建起一个智能体及其生态系统。澜舟科技创始人兼CEO周明博士认为，“当前已然进入后LLM时代。LLM将会持续发展，而作为LLM应用载体的智能体，必将呈现出爆发式增长态势，引领AI技术发展。

2025-04-04 02:00:39 769

原创机器人性能提升50倍！1024层深度网络+自监督解锁强化学习涌现能力

首先，它缓解了深度网络中的梯度消失问题。这篇论文提出了一种革命性的方法：通过将网络深度从传统的2-5层增加到1024层，结合自监督学习，显著提升了RL的性能，在某些任务中甚至实现了20倍的性能提升！在传统强化学习中，智能体通常只针对单一任务进行优化，而目标强化学习将目标作为输入的一部分，允许智能体同时学习多个目标策略，从而获得更通用的行为能力。为进一步验证Scaling Law在RL中的有效性，论文中使用1024层网络作为实验对象，通过训练曲线可知，1024层网络能够在更少的训练步数内达到更高的性能。

2025-04-04 01:58:04 572

原创具身的这几个领域为什么难攻克？

VLN机器人需要逐步获得视觉观测，执行动作，获得新的观测，以此循环，这天然是⼀个序列决策的任务。采用怎样的编码器，视觉和语言的表征是否应该投影到⼀个共同的表征空间？最近火热的流策略(flow policy)亦是在扩散模型基础上的进一步演进，扩散模型在复杂环境下的适应性和任务完成能力已经得到了充分验证。大模型在具身智能领域的部署仍面临多个难点，大模型通常需要大量计算资源，而具身设备（如机器人）的计算能力有限。模型部署的时候本身也需要优化，需要在保持性能的同时压缩模型规模，以适应具身设备的资源限制。

2025-04-04 01:45:48 278

原创 R1-Zero（GRPO）的复现实验记录，踩坑问题（小模型）

format仍然出现问题，检查输出，发现Instruct模型可能是由于对齐的原因，喜欢将之间加一个\n，导致奖励获取失败。之前我们提到过，使用的是GRPO的reward—normalization，因此，因此，return的平均也是0左右。先调取一下模型训练过程中的response，其中部分是没有think和answer的，但也有部分是拥有和的过程，（三）Base model （重复，一味的追求长度的输出？Basemodel没有经过之前的对齐操作，所以正常的format就可以，加上\n的反而不正常。

2025-04-04 01:44:25 353

原创超越 Manus？华人创业产品 Genspark 推出通用 Agent（附实测效果）

即使官方不放出来下面这个图，大家也都能猜到具体是怎么回事：开发丰富的 Tool Use 能力，比如 Genspark 可以让 AI 打电话和视频生成，但 Manus 还不行，以及积累足够多优质的私有数据，让 Agents 更好的去推理，规划，调用这些工具和访问数据。Genspark 对这个任务的 Workflow 拆解也很清晰，首先它调用视频理解工具获取了视频的字幕，然后根据字幕里的信息去搜索相关图片用作 PPT 的配图，接着拆解成十页内容，根据一定预设的规则，用前端代码的形式生成内容。

2025-04-04 01:41:28 880

原创马斯克又秀人形机器人：擎天柱实现稳步行走

同月稍晚时候，马斯克在全体员工会议上宣布，擎天柱已在弗里蒙特工厂的试产线上完成制造，今年将进入试生产阶段，今年的生成目标是5000台，且已订购的零部件足够支撑今年生产10000—12000台，2026年目标是生产50000台。Grok做了解答，顺便diss了一把波士顿动力：擎天柱注重实用、可规划应用于工业场景，其目标是以每台约3万美元的价格部署在工厂中、完成精密任务，计划到2025年生产超过1000台。此外，Grok还表示，擎天柱将于2026年登陆火星。，这次，擎天柱步态更稳健、手臂摆动更自然。

2025-04-04 01:39:14 356

【长江证券】水下听风，智领深蓝【发现报告 fxbaogao.com】.pdf

【长江证券】水下听风，智领深蓝【发现报告 fxbaogao.com】

2025-06-04

搜索引擎概览 searchengine

2024-11-19

11个代码生成相关的论文，20241022更新版本-持续更新，包含代码搜索、代码搜索、代码模型survey、代码评论评估、代码评

find . -mindepth 2 -maxdepth 2 -type f -name "*.pdf" | awk -F/ '{print $(NF-1)}' | sort | uniq -c 2 代码或bug分类 1 代码搜索 1 代码生成 1 代码模型survey 1 代码评论评估 5 代码评估与提示

2024-10-22

10篇代码生成的论文，包括代码评估、代码搜索、代码生成、survey、代码或bug分类

题目类型分区摘要精读链接 Comparing large language models and humanprogrammers for generating programming code 代码评估 arxiv 评估七种LLMs在生成编程代码方面的性能，探讨不同提示策略对LLMs编码性能的影响，直接比较LLMs与人类程序员的编程能力，评估LLMs在不同编程语言之间生成和翻译代码的能力，以及考察LLMs的计算效率和从过去错误中学习的能力。 A Comparison of the Effectiveness of ChatGPT andCo-Pilot for Generating Quality Python Code 代码评估会议包括评估ChatGPT和Copilot在解决LeetCode编程问题上的有效性，探讨ChatGPT在接收到反馈后纠正代码的能力，以及其在提高代码质量和性能方面的潜力。 Program Code Generation with Generative AIs 代码评估 MDPI水刊-Algorithms非SCI 比较了人类生成的代码

2024-10-21

Multimodal Representation for Neural Code Search

—Semantic code search is about finding semantically relevant code snippets for a given natural language query. In the state-of-the-art approaches, the semantic similarity between code and query is quantified as the distance of their representation in the shared vector space. In this paper, to improve the vector space, we introduce tree-serialization methods on a simplified form of AST and build the multimodal representation for the code data. We conduct extensive experiments using a single corpu

2024-10-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人