2025年04月_强化学习曾小健

05月 04月 03月 02月 01月

原创大模型背景下智能体、工具、函数和MCP傻傻分不清？

智能体是利用大模型执行任务的AI系统。它们通过自然语言理解用户需求，并规划任务执行步骤。例如，一个智能体可能被要求“安排下周二下午2点的会议为了完成此任务，智能体需要与外部工具交互，获取日历信息或创建事件。

2025-04-04 01:36:07 285

原创 IEEE Trans！最新2025中科院1区TOP，AI领域，竟集体屈居CCF-B?

由IEEE计算智能学会出版，创刊于1997年，双月刊，2023年影响因子为11.7，位列中科院一区TOP期刊（计算机科学大类），JCR Q1。年发文量137篇，中国学者占比达56%，审稿周期平均4-12个月，录用率低于20%。支持非OA（免版面费）和OA模式（2610美元）。

2025-04-03 18:01:53 640

但通过 Claude Desktop 连接 Blender MCP 服务器，用户只需说“帮我创建一个红色跑车模型”，Claude 会将指令发送给 Blender MCP，由后者调用 Blender API 构建模型，实时返回渲染结果。的信号——在硅谷科技评论（SVTR）AI 创投库中，“标准化接入”与“多模型协同”的相关热度正在持续上升，这显示出整个行业对 AI 代理未来形态的高度关注。例如，“法律助理 AI”、“医生助手 AI”、“工程经理 AI”等，背后都是专门的 MCP 工具组合。

2025-04-03 18:00:04 941

原创 DeepMind核心论文禁发6个月，Transformer级研究锁死！CEO：不满意就走人

新智元新智元 2025年04月02日 13:33 北京新智元报道编辑：桃子好困DeepMind研究成果，已被按下暂停键。FT爆料称，由Demis Hassabis领导的谷歌AI部门，正对研究论文发布实施更严格的审查机制。总结来说，有这么几种论文不发：会被竞争对手利用的创新成果让Gemini模型相形见绌的研究而那些涉及到GenAI的「战略性研究」，更是有着长达6个月「禁发期」。如果研究员非要发论文，就得去说服多名相关人员，认可其发表的价值。这对于DeepMind而言，是一个重大转变。6个月禁发期，

2025-04-03 17:33:08 639

原创本周ima工作日志：接入DeepSeek-V3

ima会继续优化问问ima、知识库、笔记三大功能的体验，随着模型能力和产品的升级，让大家问得准、存得好、写得便。之前有用户“许愿”，希望在ima能用上最新版DeepSeek V3。各位ima的云监工们，本周ima的升级，增加了以上这两个功能。👉在HTML等代码前端任务上，生成的代码可用性更高；👉面对中长篇文本创作，内容质量得到明显提升。还有用户希望ima新增“恢复历史页面”功能。2025年04月03日 16:31。

2025-04-03 16:52:59 387

原创 Lovable：欧洲增长最快的初创公司

2025年无疑将成为AI编程加速发展的关键之年。在硅谷科技评论（SVTR）AI创投社区里，我们看到越来越多的AI编程落地案例。Cursor凭借强大的产品能力和市场前景，估值已攀升至百亿美元级别，成为全球关注的焦点；而模本科技则通过深耕国内本土企业需求，推出贴合实际的新产品，在国内市场展现出强劲势能。在lovable的创始人 Anton 看来，软件创业的范式正悄然发生根本性改变。“我们很快就会看到 AI 自动创建整个公司。虽然目前你仍然需要工程团队来继续推进，但这一点也会很快改变。

2025-04-03 15:55:35 898

原创 Vibe Agent: Token成本直降90%，会对话就能创造专属本地Agent

从最新的 GPT-4o 图像直出、AI IDE 的代码辅助生成再到 Libra 的行动 Agent 生成，交互体验的突破带来的是效率的跨越式提升 —— 传统方式需要数周构建的基础 Agent，在 Vibe Agent 模式下仅需 10 分钟的对话调教，即可让 AI 自主理解场景中的工具需求与流程约束，生成同等甚至更高水平的专业级代理服务。当然，有想法的小伙伴已经想到了， “想要专属个人助理”,“生成一个 Libra”，随着 Libra 的技术验证成功，创造力将不再是瓶颈，请开始你的对话式调教。

2025-04-03 15:53:37 624

原创为今年最火的机器人来场全球挑战赛：150万高额奖金，还有顶级硬件支持

赛事协办：加州大学伯克利分校、新加坡南洋理工大学、香港理工大学、香港城市大学、南京大学、同济大学、武汉大学、华中科技大学、中山大学、厦门大学、东南大学、北京交通大学、成都信息工程大学、香港科技大学（广州）、香港科技大学郑家纯机器人研究院、 INCLUSION AI。产业级硬件生态支撑：上海智元新创技术有限公司、松灵机器人（东莞）有限公司、星海图（北京）人工智能科技有限公司、深圳逐际动力科技有限公司等 63 位学者及行业专家；赛事承办：香港中文大学、北京大学、北京师范大学、蚂蚁集团。

2025-04-03 14:57:23 439

原创《从比特币暴跌想到：用资产和期权铸造现金流永动机》最近BTC又开始大跌，很多小伙伴又开始担心牛市是否还在？我今天想从另外一个维度聊聊，资产、身价和现金流的重要性。一、从“市值幻觉”到“资产本位”

而用资产本位去思考长期问题的时候，你发现你的审美在提高，大部分标的都无法进入你的视线，他们的涨涨跌跌和你一点关系都没有；当你的股息覆盖水电费、期权收入支付米其林晚餐、资产增值对抗养老通胀时，才会真正理解：财富不是数字游戏，而是用时间和资产编制的安全网。长寿性资产：选择能穿越经济周期的“永生型企业”（如垄断性公用事业、必需消费龙头），它们如同能活100岁的。“账户浮盈”的面具，穿透“身家估值”的迷雾，会发现财富的本质不是屏幕上跳动的数字，而是。，而每一条斜坡（期权）的搭建都在利用重力（时间）做功。

2025-04-03 14:37:48 577

原创被哥大开除后，他靠AI作弊神器年入千万！血洗硅谷大厂拿遍offer成功创业

新智元2025年04月03日 13:20北京编辑：Aeneas KingHZ层出不穷的AI作弊手段，简直摧毁了整个技术面试。大厂的负责人们，已经快被整崩溃了！而与此同时，AI作弊软件的公司们，却赚得盆满钵满，6到飞起。就在昨天，此前因面试作弊被开除的哥大网红哥Roy Lee开心宣布：公司营收直接破纪录，第二个月运营收入为22.85万美元，利润为22.4万美元。此前他就预测，公司将实现100万美元的年度经常性收入。左右滑动查看至此，小哥原地财富自由，走上人生巅峰。

2025-04-03 14:34:37 1047

原创 AI新突破！Nature力荐！物理信息神经网络（PINN）创新工作

论文研究了贝叶斯物理信息神经网络（B-PINNs）在解决带噪声数据的偏微分方程问题中的应用，通过引入Hamiltonian Monte Carlo和变分推断（VI）等后验采样方法以及非贝叶斯框架的dropout，对比其在小数据集下的性能表现。学习机（BPIELM），通过将物理定律作为成本函数引入极限学习机中，并结合贝叶斯方法来量化散乱噪声数据的不确定性，实验证明BPIELM在噪声场景下提供了更准确的预测和更低的计算成本，同时避免了过拟合问题。器主导的电力系统中频繁变动的系统参数，引入了弱信息先验。

2025-04-03 14:30:39 562

原创深度｜Cursor首席设计师：伟大的事物是自然发生的；不要过早聚焦，也不要将规划凌驾于实践之上

你从半见半知的事物开始，与分享你信念的人一起建设，在确定方向之前广泛探索，通过实践而不是空洞的理论学习，保护新生的想法免受过早的批判，并以敏捷的态度持续前进，拒绝在速度的祭坛上牺牲卓越。它是一个粗糙的形态：一个半明半暗的走廊，你只能看到轮廓和可能的微弱暗示。这是一门近乎神秘的艺术，从如此粗糙的开端出发，以至于你不确定它是泥土还是宝石，然后耐心地揭示其形态，直到他人认出其美。那位说“真理是不需要说出的东西”的哲学家，或许正在谈论一个与其环境完美契合的产品，以至于没有竞争对手能提出更简单的替代方案。

2025-04-03 12:03:59 913

原创解密神经元活动变异性：艾伦研究所与清华揭示大脑状态如何动态调节神经编码

值得注意的是，状态转换呈现出严格的动力学约束——高频态与低频态之间的切换大部分必须通过中间态完成，且每个状态的平均驻留时间仅 1.5 秒，揭示了大脑状态的快速动态特性。这项研究通过建立基于脑状态的变异性解析框架，揭示了神经编码的动态本质：神经元的反应变异性并非简单的噪声，而是反映了神经系统在秒级时间尺度上快速调节信息处理策略的过程。而中间态则作为状态转换的必经桥梁。他们发现，大脑内部状态的波动会显著影响神经编码的效率，不同脑区的神经元根据其在解剖层级中的位置，对感知刺激和行为表现出独特的编码模式。

2025-04-03 11:57:22 834

原创 Cursor劲敌来了、Augment Code

的不是同一条路，Cursor 是基于 Claude 的模型开发的，Augment Code 则从一开始就决定自己来做模型。之前和业内朋友聊天说，像 Augment Code 这样的公司，只要它的基础模型有大突破，就一定能碾压 Cursor。Augment 训练了自己的 AI 模型，让它能实时“挑选”出代码库里最相关的部分，确保 AI 能高效工作。4、Augment Agent 还有个叫“记忆”的功能，它会通过观察开发者的操作，慢慢学会你的编程习惯和风格。具体来说，有下面这些功能和特性。

2025-04-03 11:35:00 873

原创机器学习里面什么叫梯度上升，什么叫梯度下降

算法更新方向目标梯度下降沿负梯度方向下降最小化函数梯度上升沿梯度方向上升最大化函数若想最大化函数 f(x)f(x)f(x)，可以将问题转化为最小化函数 −f(x)-f(x)−f(x)，然后使用梯度下降。若想最小化函数 f(x)f(x)f(x)，可以将问题转化为最大化函数 −f(x)-f(x)−f(x)，然后使用梯度上升。

2025-04-03 10:34:13 791

原创属猪的人2025年运程生肖猪2025蛇年事业、财运、感情、桃花、健康、学业运势详解

属猪的人2025年整体运势生肖猪的2025年无疑是充满挑战与变动的一年。这一年标志着“岁冲”之年，即犯太岁的一年。根据传统的风水学和生肖理论，这种情况下，属猪的人会面临更多的不稳定因素和变动，会遇到一系列的挑战和困难，这意味着在面对太岁冲击时，属猪的人需要特别小心和警惕，做好充分的准备，及时应对各种变化，以避免受到负面影响。在2025年，属猪的人将处于较为艰难的局面。由于缺乏吉星的庇佑，这一年中，属猪的人没有外部的支持和帮助。没有贵人的协助，所有的挑战和问题几乎都需要靠自己去克服。因此，属猪的人需要付出比平

2025-04-02 16:34:20 422

原创美国奥数题撕碎AI数学神话，顶级模型现场翻车！最高得分5%，DeepSeek唯一逆袭

新智元2025年04月02日 10:30北京编辑：KingHZ Aeneas。

2025-04-02 11:04:01 626

原创 87万年薪的“氛围编码”岗火了，连代码都不用写？Karpathy：不会Swift也能1小时开发iOS应用！

值得注意的是，就在刚刚过去的周末，“氛围编码”概念的提出者 Karpathy 恰巧也在 X 上分享了他的“氛围编码”最新成果——完全没有用过 Swift 的他，仅用 1 小时就开发出了一款 iOS 应用。当然，质疑的声音也不少。此外，在社交平台上，还有一些人把“氛围编码”的成功案例包装成个人能力或财富积累的炫耀，这种做法容易引发争议。在这个阶段，有经验的开发者可能会放弃“氛围编程”，转向正常的调试流程，把 AI 作为数字助手来辅助自己。现实来看，“氛围编码”确实可以节省大量的时间，但它也不是万能的。

2025-04-02 10:53:53 584

原创 Embedding向量模型在RAG本地知识库中如何使用

通过理解这些技术细节，即使是刚入门的小白也能做出专业选择。当处理中文合同文档时，选择BGE模型配合余弦相似度；处理跨国客服对话记录时，Jina的多语言支持是更好的选择；记住，选择模型的依据终止依据——合适的才是最好的！

2025-04-02 01:19:01 844

原创 Project Loong：通过 Verifiers 实现大规模合成数据生成

在合成问题与其对应答案之间，天然存在“正确性缺失”的差距——因为合成答案并不一定是正确的。若想彻底弥合这一差距，通常需要人类监督，但这在大规模上不可行。因此，我们的目标是。

2025-04-02 01:18:11 797

原创 Function Calling：AI模型调用外部函数的基础知识

Function Calling 是一种技术，允许大型语言模型（如 GPT、Claude）在生成文本时，通过结构化指令（如 JSON）调用外部定义的函数或服务，并将结果返回给用户。

2025-04-02 01:12:22 798

原创 WebThinker：赋予推理模型深度研究能力

作为一个让推理模型在思考过程中自主调用工具的新范式，WebThinker展现出了其潜力。未来，仍有不少可以继续探索的方向：1.多模态推理能力：扩展到图像、视频等多模态内容的深度研究，来利用网络中的多模态信息。2.工具学习与扩展：通过自我提升机制，不断优化工具使用策略，以及扩展更多工具。3.GUI网页探索：通过GUI网页探索能力，让模型能够更好地理解和操作网页界面，实现更复杂的交互任务。

2025-04-02 01:09:43 735

原创 Manus和AutoGLM颠覆了我对于Agent的认知

但Manus和AutoGLM都强调模型的工具调用能力。我陆续和Manus以及智谱AutoGLM团队。Manus和AutoGLM都强调一个概念⬇️。而AutoGLM的朋友则用一个例子进行了解释。2025年04月01日 22:12 ,,四川。Manus没有对Agent有任何的限制。AutoGLM是结果最准确、幻觉最少的。这也许是新的范式所带来的模型能力的外溢。重点建设了Agent的工具调用能力。提升了模型工具使用和长程推理能力。Manus的产品合伙人跟我表示。

2025-04-02 00:42:31 197

原创超越RAG！R1-Searcher融合搜推，借强化学习破LLMs推理局限！

大型推理模型（LRMs），例如OpenAI-o1、DeepSeek-R1和Kimi-k1.5，已经展示了强化学习（RL）在增强大型语言模型（LLMs）推理能力方面的显著影响。然而，由于这些模型主要依赖内部知识，它们在处理开放式任务时可能会遇到困难，尤其是在涉及知识密集型问题、本地数据库中的私有信息以及时效性问题时。这种依赖可能导致不准确性和幻觉现象。因此，使LLMs在推理过程中能够访问外部信息以实现更审慎的推理是至关重要的。

2025-04-01 13:46:13 781

原创美国人形机器人独角兽Agility Robotics，又要融资28亿元！软银参投

即便机器人造型、能力看起来平平无奇，不如近来扎堆炫技的人形机器人那么耀眼，所聚焦的场景也一直都是仓储物流领域，但是从Agility的商业化落地情况来看，这家公司可以说是领先了特斯拉、FigureAI、1X等行业热门玩家。宣布，人形机器人Digit正在他们旗下的Spanx工厂进行试点测试，Digit在仓库中执行物流任务，包括从AMR上移动货箱并将其放置在传送带上。其中，亚马逊的参投也意味着Digit机器人进入其仓储生态，Digit不久后也进入亚马逊从事筛选、搬运物料箱至流水运输线的工作。

2025-04-01 13:43:18 447

原创 Windsurf使用技巧分享最近使用了差不多半个月的Windsurf，使用下来的感觉就是这玩意血强，不比cursor差。

最近使用了差不多半个月的Windsurf，使用下来的感觉就是这玩意血强，不比cursor差。最后想说的是，作为程序员，一定要跟上当前AI的时代，既不要听信什么AI能取代程序员，也不要排斥使用AI工具，因此对于AI要保持一个客观的态度，多使用一段时间就能差不多感知到模型能力的边界，自然就能很好的利用好它来提升自己工作的效率。如果你不知道怎么设计更好的代码架构时，你也可以直接通过对话让其给你建议，这不仅是对于使用Windsurf的建议，也是现在有AI辅助时代的程序员新的开发思路，AI就是跟你一起思考的小黄鸭。

2025-04-01 11:34:42 776

原创不仅 PUA 员工，连 AI 都不放过，令人发指！哈哈哈，让我先笑一会儿

面对 AI 这种 “黑箱”，我们本能地会把它想象成人类，试图用对待人类的方式来对待它，用情感、激励、威胁等等手段，来 “驯服” 它。更有甚者，除了 “小费” 这种正面激励，还有人尝试用负面激励，比如威胁 AI，或者把它放在一个 “低性能会导致他人受苦” 的位置。也许 AI 能 “理解” 这种隐含的社交含义，把它当成一种 “礼貌” 的信号，从而更愿意给出 “好” 的回答。但实验结果让人有点失望。最近几年，有人开始研究“情感提示词”，就是想看看，给 AI 加点“感情戏”，能不能让它表现更好。

2025-04-01 11:19:49 956

原创激光雷达龙头自动驾驶机器人“双擎引航”布局解读

硅光电倍增管（SiPM）正逐步取代雪崩光电二极管（APD），实现高灵敏度，从而增加探测距离。相比于SiPM 方案，SPAD 阵列方案通过从模拟信号到数字信号的转变可使整机系统的体积进一步下降，得益于数字信号输出和CMOS工艺兼容性。根据YOLE测算，未来10年内，预计SPAD及 SiPM份额将呈现提升趋势。

2025-04-01 11:11:21 957

原创机器人导航VLN，具身智能的半壁江山视觉语言导航VLN都有哪些主流方法论？

Conner，专注于机器人导航领域，港三博士在读。拥有丰富的机器人导航实战经验和研究背景，曾在顶级会议CoRL和Neurips发表研究。

2025-04-01 11:07:59 1567

搜索引擎概览 searchengine

2024-11-19

11个代码生成相关的论文，20241022更新版本-持续更新，包含代码搜索、代码搜索、代码模型survey、代码评论评估、代码评

find . -mindepth 2 -maxdepth 2 -type f -name "*.pdf" | awk -F/ '{print $(NF-1)}' | sort | uniq -c 2 代码或bug分类 1 代码搜索 1 代码生成 1 代码模型survey 1 代码评论评估 5 代码评估与提示

2024-10-22

10篇代码生成的论文，包括代码评估、代码搜索、代码生成、survey、代码或bug分类

题目类型分区摘要精读链接 Comparing large language models and humanprogrammers for generating programming code 代码评估 arxiv 评估七种LLMs在生成编程代码方面的性能，探讨不同提示策略对LLMs编码性能的影响，直接比较LLMs与人类程序员的编程能力，评估LLMs在不同编程语言之间生成和翻译代码的能力，以及考察LLMs的计算效率和从过去错误中学习的能力。 A Comparison of the Effectiveness of ChatGPT andCo-Pilot for Generating Quality Python Code 代码评估会议包括评估ChatGPT和Copilot在解决LeetCode编程问题上的有效性，探讨ChatGPT在接收到反馈后纠正代码的能力，以及其在提高代码质量和性能方面的潜力。 Program Code Generation with Generative AIs 代码评估 MDPI水刊-Algorithms非SCI 比较了人类生成的代码

2024-10-21

Multimodal Representation for Neural Code Search

—Semantic code search is about finding semantically relevant code snippets for a given natural language query. In the state-of-the-art approaches, the semantic similarity between code and query is quantified as the distance of their representation in the shared vector space. In this paper, to improve the vector space, we introduce tree-serialization methods on a simplified form of AST and build the multimodal representation for the code data. We conduct extensive experiments using a single corpu