2025年04月_强化学习曾小健

05月 04月 03月 02月 01月

原创国产黑马Vidu Q1重塑AI高清视频赛道，飞书高效联动，成本直降90%！

原创何先森kevin2025年04月27日 12:59北京要说现在AI圈什么最火？AI视频绝对是顶流！从年初Sora的“王炸”登场，到国内外各路新秀不断涌现，让人眼花缭乱。不过，光看国外“神仙打架”不过瘾，咱国产AI力量也在悄悄憋大招。近日，由生数科技和清华大学联合研发的国产视频大模型Vidu Q1更新发布，在画质、性价比和稳定性上都来了个跨越式的大升级，甚至在最新的VBench和SuperCLUE视频大模型榜单上都拿了好几个第一！背景实力毋庸置疑。Vidu Q1这波升级，可谓是诚意满满！

2025-04-28 00:52:59 1018

原创歼-20刺破苍穹，董事长戴铐出镜！

谭瑞松三年前"打造军工国乒队"演讲画面中，台下鼓掌的供应商代表已有9人涉贿被捕。某型无人机起落架采购单显示：市场价200万元的钛合金构件，合同金额锁定850万元，审批栏注明"特事特办"。航空涂料研发项目因资金截留延期26个月，直接导致某舰载机型号推迟列装。亲属控制的空壳公司，五年内七次中标核心零部件供应，报价均超市场价300%以上。某型机载雷达散热系统采购清单显示：相同规格部件，军工集团采购价为民用航空市场的4.2倍。

2025-04-28 00:48:49 114

原创 AAAI 2025 | 一种用于语义分割的无需训练的合成数据选择方法

使用合成数据训练语义分割器因其易获取性和大量性而备受关注。以往大多数方法专注于生成大规模合成图像 - 注释样本，然后用所有样本训练分割器。然而，这种解决方案面临一个主要挑战，即不可避免地会产生低质量样本，用它们训练模型会损害训练过程。在本文中，作者提出一种基于CLIP的无需训练的合成数据选择（SDS）策略，以选择高质量样本构建可靠的合成数据集。具体而言，对于大量合成图像 - 注释对，作者首先设计基于扰动的CLIP相似度（PCS）来衡量合成图像的可靠性，从而去除低质量图像的样本。

2025-04-28 00:48:09 1018

原创比亚迪入股，触觉传感技术全球领航者！诺仕机器人

相比于六维力控，触觉传感器作为机器人的核心部件，能提供更细腻的感知能力，如同人类皮肤，可感知压力、纹理、温度等多维信息，实现对物体形状、材质的精准识别，甚至能捕捉微小的接触变化。更值得一提的是，它集成了987个ITPU触觉传感单元，具备15种多维触觉感知能力，在人形机器人灵巧操作领域遥遥领先。更是“火力全开”，其双手内搭载近两千个帕西尼自主研发生产的ITPU多维触觉传感单元，拥有0.01N的精准力控能力，在HAPTA异构多核阵列软硬件架构的加持下，双手感知能力精细灵敏，能够实现物体6D位姿识别与柔性抓取。

2025-04-28 00:44:29 843

原创宇树机器人“死机”与达闼机器人暴雷

笔者近期写了机器人马拉松的话题，看到大部分评论还是充满了各种不理解和戾气，认为媒体求全责备大V说比赛表现很正常，外媒甚至提出了一些正面表扬。所以国内提出批评的媒体基本上都是在蹭热度“无事生非”。这种“非左即右”的观点让很多讨论都失去了价值，讲一万句道理不如喊一句我支持谁。要说支持科技创新把科技视作第一生产力，恐怕没有几个国家比得上我们国内的氛围。从元宇宙到智驾再到AI，几乎都有各种企业深度布局，但是支持是支持，如果明知道前面有不可逾越的“泡沫”还不提醒的话，最终会带来沉重的代价和行业内的一地鸡毛。

2025-04-28 00:32:34 858

原创我用AI做畅销榜第二的游戏！（全）

比如前文章中要做的视觉游戏，可以通过找类似的游戏，类似的影视剧，简单的进行“图生图”的操作，就可以得出较为满意的效果。类似于如图的分支选择，可以用最快的方法“文生图”，把这些要制作的情节，用图片填充（先不追求完善，先保证情节和主题）AI可以根据需求，通过工具，尽可能的画出来，但是否适用在游戏中，是否表达环境情节冲突，AI不知道，你需要有常年的影视美术基础经验，以及对游戏的审阅目光。这三篇文章完成，讲述了一个道理，AI是个好工具，可以帮你完成求职的demo，也可以帮你制作基础的方案，甚至同人级别的游戏。

2025-04-28 00:29:47 584

原创文章研读┃Sci. Robot.：虚拟弹塑性机器人在主动环境中的柔顺行为

实验在一个养老院中进行，从而可以评估 EPRC 在人机共享环境中的性能，评估的重点是 SoA 类型和 EPRC 在机器人上的性能对远程操作的影响。较低的轨迹标示机器人最初尝试关闭门的路径。通过在太空遥操作和医疗护理环境中的实验，EPRC展现出更高的任务执行稳定性、更好的环境适应性、更高的鲁棒性，以及对主动环境的智能感知能力。弹塑性行为，图1右侧，目标指令指令导致机参考位姿变换，通过弹簧使机器人位姿也发生变化，此时受到的主动环境使得参考位姿偏离目标位姿，发生塑性行为，最终机器人位姿和参考位姿偏离目标位姿。

2025-04-28 00:29:16 835

原创 OpenAI Triton 源码阅读 : TableGen 工具

TableGen 基于源文件中的信息生成复杂的输出文件，这些源文件比输出的文件更容易编写，随着项目的增大和时间的推移，更容易维护和修改。文件内部的记录传递给各种后端，后端从记录的子集中提取信息，生成一个或多个输出文件。TableGen 本身是一种声明式的编程语言，类似数据库中的 SQL查询语句，LLVM 或 MLIR 生态中，它描述MLIR中 Operation 的类的定义，在源代码中它以 .td 文件的形式存在，在编译时会自动生成相应C++ 文件，给 Dialect 模块提供支持。

2025-04-28 00:28:41 843

原创气死！早知道 Cursor 0.49.x 能自动生成规则，我何苦手写 3 年规范！大家好，我是刘哥。干了这么多年 Java 开发，最怕遇到 “猪队友” 工具 —— 写代码卡顿、查问题麻烦，改个规

有次连续开了三小时会，从业务逻辑吵到接口设计，本以为规则早 “跑路” 了，结果会后一看，好家伙，连@Transactional注解的使用规则都稳稳生效！对方画的原型图看起来超酷炫，但我用文字描述需求时，不是漏了交互细节，就是理解错设计意图，代码写出来和设计稿差了十万八千里，返工改到怀疑人生。按 “性能优先”“安全合规”“快速开发” 分类，选 “安全合规” 模型，@PreAuthorize注解、参数校验代码自动生成，开发效率直接提高 30%。导入历史代码模块，喝杯咖啡回来，它还在加载，气得我直砸键盘。

2025-04-28 00:27:17 481

原创一行代码不用写，AI看论文自己「生」出代码库！科研神器再+1

在这个阶段，会彻底分析仓库中每个文件的详细目的和必要考虑因素。此阶段生成的输出明确指定了每个文件应实现的目标，并强调了成功实施所需的关键因素。具体来说，分析阶段的输入包括原始研究论文和先前生成的工件（总体计划、架构设计、逻辑设计和配置文件）。该阶段的输出包括文件级别的分析文档，记录了精确的实现细节，这些细节将为后续的代码生成过程提供信息。编码阶段最后阶段是编码阶段，该阶段生成构成研究仓库的代码。

2025-04-28 00:20:44 588

原创百度暑期算法grpo缺点是啥?

原创 AIGC小白入门记2025年04月27日 12:02广东。

2025-04-28 00:19:38 286

原创清华大学论文：RL强化学习并非万能良药

最近小编一直在研究RL强化学习的范式，关注Self-Improvement相关能实现自主进化，自我学习的全部潜力，同时最近关注的尤其是在一些小模型中通过RL极大提升推理能力带来的突破，俨然一副RL强化学习是AI模型训练和推理能力突破的万能良药，但最近清华大学的一篇论文给泼了一盆冷水，事实证明，RL强化学习的胜利之旅为时过早。以下是论文《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the

2025-04-28 00:17:12 1372

原创 Nature | 恐惧还和免疫有关！研究发现神经细胞与免疫细胞协同调控恐惧行为新机制

2025年04月27日 22:31。

2025-04-28 00:16:09 497

原创手把书教你用宏定义+ TikZ 绘制数独游戏

原创 KenLaTeX工作室2025年04月28日 00:03浙江我从几年前第一次接触数独以来就一直喜欢它。因为我现在经常使用 LaTeX，我想找个简单的方法用 Tikz 排版数独网格，想着将来可能会写一些教程。结果发现，已经有一个包可以做到这一点：sudoku 包。这个包很不错，但对我来说有两个限制。这并不是特别麻烦（复制粘贴在这里可能会帮上忙），但要处理的代码量确实不少。其次，它没有办法给网格中的特定方格上色，如果你在写教程的话，这可能是你想要做的事情。

2025-04-28 00:14:33 1014

原创谷歌发现LLM是Greedy Agent，提出用RL调教出理性决策

小规模模型（如2B参数）尤其明显：如果某个动作在历史记录中出现次数多（比如连续按“蓝色按钮”10次），即使它收益低，LLM仍会盲目选择。实验结果：结合探索奖励（+1奖励未尝试动作）效果最佳，覆盖率提升至70%。去掉思维链后，模型表现倒退至微调前水平，证明CoT是“有效思考”的关键。等领域大放异彩，但当它们被用作“智能体”做决策时，却常犯低级错误：比如。（如老虎机的某个拉杆），后续不再探索其他选项。：通过强化学习（PPO算法）奖励高收益决策，惩罚无效动作。），让LLM的决策能力实现质的飞跃。

2025-04-28 00:13:42 1019

原创如何让AI开发正真可控、可靠？Cursor AI工程化https://mpbeta.csdn.net/mp_blog/creation/editor/145218555?spm=1001.2014.3

在 Cursor 中自带三种模式：Agent的工作模式与人类的工作流程相似，可以完整的完成任。Manual模式是一种用户可控的专注编辑模式，和Agent的区别在于它不会自动补充上下文（比如：检索代码库、运行终端命令...）它只会使用你提供给他的信息。Ask是一种“只读”模式，具有读取文件和其他上下文的能力，但无法自行进行任何更改。自定义模式，您可以通过启用自定义模式，你可以定制你的工作模式自定义模式可以帮助我们适配特定的研发阶段，我们可以找到聊天界面 -> 模式选项 -> 最下方编辑按钮，点击创建新模式。

2025-04-27 17:23:15 937

原创 MCP还是AI智能体？如何为你的AI应用选择最佳“大脑“架构

04/27各位AI开发者们，说起大语言模型的应用开发，想必都遇到过这个经典难题：👉 既要让模型能调用搜索、计算器、API等各种工具，又要保持它的智能性、适应性和可控性，该怎么设计架构？"**（关键词：任务规划、工具调用、自主决策、流程编排）（关键词：组件化、灵活扩展、模型驱动决策）这两种方案本质上都在构建能推理、能行动、能自我调整的智能系统，但！今天我们就用最通俗的类比和对比表格，带你看懂：MCP和AI到底是什么？它们差异在哪？什么场景该用哪种方案？

2025-04-27 17:11:02 900

原创 Test-Time ScalingLaw又失效了? 算力约束下的国产模型突破在何方?

其实我在很多年前的毕业论文里就完成过类似的算法, 构造过10000个agent, 每个Agent有一些自己的逻辑, 只是那个年代计算规模很小, 单个Agent参数比较少, 主要是单一任务做仿真的股票交易, 在300ETF里面选择股票并构建order book, 然后构造一个随机图, 相互之间有一些随机跟风行为等影响交易状态的随机矩阵来做一些状态迁移概率的模拟. 最后构建了一个虚拟的撮合系统, 完成仿真交易. 包括后面做了一个分布式强化学习优化网络的算法, 一直以来都有这样一个研究路径....

2025-04-27 15:46:24 271

原创给强化学习加上约束，拯救熬夜调reward的你

原创罗昊翔2025年04月26日 11:10广东。

2025-04-27 15:44:25 510

原创这可能是腾讯游戏今年快乐成分最高的游戏

这要从音舞品类的桎梏讲起。音舞游戏对比音游也有所不同，音舞游戏会将音游玩法与舞蹈联系在一起，提升产品的社交潜力，进而增加玩家的体验维度，并且在曲目的难度设置上会比一般的音游更低，这也是为何大家会觉得“音游”很硬核，但“音舞游戏”并不会的原因。另一方面，又区别于其他注重技巧游戏，玩家可以依靠技巧，来提供多种解决方案，进而为玩家带来更多选择的技巧方向，音游的技巧成长方向更偏重“背谱”（将每一个交互键按对、按准，才能取得高分），也因此，玩家只能一遍又一遍的练习固定歌曲，来提升“读谱”与“手速”的音游“底力”。

2025-04-27 15:42:45 336

原创危险的游戏：只需一张照片，几行代码，O3就让你的生活暴露在大众眼中

车牌可能会给我一些线索，让我知道这张照片是在哪里拍摄的，特别是如果它来自一个可以识别的州的话。o3 并不是唯一能做到这一点的模型产品：我也在 Claude 3.5 和 3.7 Sonnet 上做过类似的尝试，虽然它们没有 "变焦 "这种奢侈的功能，但其效果也给我留下了深刻的印象。我猜测模型的图片分析功能是在相当低的分辨率下运行的，因此在靠近车牌的地方进行裁剪确实会对整个过程产生有意义的影响。令人沮丧的是，分享的对话并不包括它所使用的其他 Python 对话，毕竟 ChatGTP的分析功能还存在很多的问题。

2025-04-27 15:41:26 236

原创 Awesome LLM Pre-training：预训练资源全总结

以下文章来源于RUC AI Box ，作者RUCAIBox本公众号主要关注使用人工智能技术来解决自然语言处理与社交媒体数据挖掘的研究内容。分享AI前沿，解读热点论文，发布小组最新成果，欢迎大家与我们交流分享，投稿精品文章。小组网站:http://aibox.ruc.edu.cn预训练是研发大语言模型的第一个训练阶段，也是最为重要的一个阶段。Ilya Sutskever 在演讲中直言“预训练（as we know it）将会终结”，暗示需要全新的思路来拓展数据边界。

2025-04-27 15:38:27 293

原创 Muse/WHAM：微软开源游戏世界模型实战解析

本文用超过 10 000 字的篇幅，从背景、数据、网络架构到完整代码与实验结果，系统拆解这套模型，并给出 GIF 与 CSV 日志，让你可复现实验、深度理解动作向量与画面生成之间的映射关系。团队公开了 WHAM（World & Human Action Model）权重与代码，并在。WHAM 能在给定 10 帧上下文的前提下，同时生成「下一帧游戏画面」与「玩家。Azure 与 Hugging Face 提供。在 2024 年底，微软 Research。2025年04月27日 15:21。

2025-04-27 15:37:36 360

原创南京大学高阳团队 | 具身智能体中因果行动赋权的高效强化学习

不管是奖励密集的任务，还是奖励稀疏的任务，CAE都能更快地学会怎么做，而且成功率更高。本文旨在赋予智能体类似人类的因果推理能力，通过挖掘状态、行动与奖励间的因果关系，减少无效探索，显著提升学习效率，为智能体在真实复杂环境中的应用提供新思路。CAE的工作原理就像是给机器人配了一个“智能过滤器”：它先分析哪些状态是机器人能控制的（比如手臂的位置），哪些是无关的（比如旁边风吹的声音），然后根据任务奖励（比如是否投篮成功）重新调整机器人的动作优先级，最后通过一种“赋能”机制鼓励机器人多尝试那些能带来大影响的动作。

2025-04-27 15:13:59 778

原创 Hugging Face 进军机器人领域，开源仿人机器人 Reachy 2 来袭！

机器人领域开源仿人机器人 Reachy 2。

2025-04-27 13:50:33 544

原创 DeepMind果蝇登上Nature！强化学习再立功！AI模拟飞行，逼真到腿毛颤抖！

(k) 半透明可视化几何体的底视图，浅蓝箭头指示关节：立方体为6自由度自由关节（模拟器中自由质心运动所需，非果蝇内在自由度），箭头为铰链关节（指向正向旋转方向），三铰链关节组等效形成球关节。由于仅凭这些2D关键点的位置，无法明确推断出所有身体自由度（DoFs）的3D姿态，因此研究者采用了一种正则化的逆运动学方法，推断出所有自由度的完整3D飞行器姿态轨迹的近似值。它能沿着复杂的自然飞行轨迹移动，比如研究人员设置的蓝色轨迹点，果蝇会精准地跟随这些点飞行，翅膀拍动的频率和角度都与真实果蝇无异。

2025-04-27 12:02:41 620

原创从争夺大模型插件标准到拥抱MCP，大家都在疯抢Agent时代入口

云厂商如阿里，腾讯不约而同地选择再建生态，为开发者提供MCP服务，前期可能会经历烧钱吸引第三方入驻，等到生态打造完毕，再现以入口收取平台税的互联网历史。高德地图就是一个MCP Server，能够使用高德地图这个工具之后，AI就不再是单纯的对话式AI了，就可以把它称为一个Agent。再进一步，当真正非常有用的数据平台不对外提供MCP服务，工具型服务不断积累到MCP上，基于MCP的Agent未来会什么样？从技术上，MCP的意义远不止于技术标准的统一，它实际上在重塑整个AI与工具生态的互动方式。

2025-04-27 11:54:57 862

原创毛选，当领导后，一定要搞清管理的顺序01：先管人再管事02：先求同再存异

原创叶成十三2025年04月27日 07:18四川你好吖好，我是思思。权力越大，责任越重。走上领导岗位的第一天，你就踏上了一条不断挑战自我的征程。职场中，那些真正出色的领导者，从不是靠喊口号、拍桌子来树立威信，而是遵循科学的管理顺序，步步为营，让团队自然而然地跟随。今天，我们用毛选的智慧，揭秘领导力的三大顺序。

2025-04-27 11:04:50 697

原创特斯拉机器人再更新，灵巧手是关键！【受益标的】

1.灵巧手是人形机器人重要硬件模块，集成化、多自由度发展，未来潜在技术迭代空间与市场空间都很大，且技术壁垒高。2.驱动系统中电驱方案为主流，空心杯电机等或将成为主要选择。3.传动系统重腱绳应用广泛，微型丝杠等新方案未来产业化有望提速。4.感知系统是智能化的重要基础，重点关注电子皮肤等环节核心厂商。提示：本文所提到的观点仅代表个人的意见，所涉及标的不作推荐，据此买卖，风险自负。

2025-04-27 11:00:15 462

原创字节跳动AI架构再次大调整，AI Lab整体并入Seed，吴永辉押注集中力量办大事

这一冲击促使字节高层紧急启动战略评估，最终决定对AI体系实施深度改革，包括将分散的AI Lab、Seed等部门统一归口管理，引进Google DeepMind前副总裁吴永辉博士担任基础研究负责人，以及调整原向朱文佳汇报的技术骨干转由吴永辉统筹。他表示，将加大对“Seed Edge”计划的投入，为从事长期、具有不确定性的研究课题的团队成员提供充足的算力支持，并取消季度OKR和半年考核，以保障研究的稳定性和创新性。整合后的架构有利于消除内耗，集中资源投入到大模型主线，提升模型研发与产品化的协同效率。

2025-04-27 10:57:25 852

原创分享一个语音库sonic

Sonic 是一个开源的音频处理库，最初由 Google 开发，主要用于在移动设备上实现高质量的音频播放和语音处理。Sonic 允许在不改变音调的情况下调整音频的播放速度，这对于语音播放尤其重要，因为改变音调会影响语音的自然度和可理解性。Sonic 设计用于低延迟场景，确保音频播放的实时性，这对于语音通信和实时语音处理非常重要。可以加快语音的播放速度，适用于需要快速回放语音的场景，如语音消息的快速播放。可以减慢语音的播放速度，适用于需要仔细听取语音内容的场景，如学习或听力训练。原创写代码的篮球球痴。

2025-04-27 10:55:17 226

原创从清华的Test-Time RL到Socratic Learning：尝试探索RL自监督框架下模型推理范式演进的机制与内涵

原创吕明塔罗烩 2025年04月27日 08:46 北京最近读到一篇清华的Test-Time RL论文，论文所提出的TTRL方法让AI自己生成答案，通过“投票”选出共识，再用共识作为奖励信号驱动学习。简单来说，就是让AI“自己出题、自己批改、自己进步”。这篇论文使我联想到近期David Silver和他的老师、2024 年图灵奖得主 Richard Sutton 合作撰写的《Welcome to the Era of Experience》论文中对于“经验”或“体验”的思考，同时亦联想到更久前读到的

2025-04-27 10:52:18 870

原创 34个RAG评估框架教你如何评估RAG效果

全面性（相关文档 ↔ 相关文档）：评估检索文档的多样性和覆盖范围，衡量系统是否全面捕捉了与主题相关的各类信息，确保检索结果能根据查询提供完整的视角。语义困惑度(SePer)指标，通过聚类实体目标捕捉 LLM 对生成答案正确性的内部置信度。准确性（相关文档 ↔ 候选文档）：对比候选文档集评估检索结果的精确度，衡量系统对相关文档的识别能力，以及能否给予高相关性文档更高评分。正确性（响应 ↔ 示例响应）：类似于检索组件的准确性指标，通过对比标准答案评估生成响应的准确度，检验响应内容的事实正确性和语境适配性。

2025-04-27 10:44:43 893

原创 Transformer原作、斯坦福、清华交大三篇论文共识：基座模型边界锁死RL能力上限

1、能力来源（source）语言模型的推理能力 = f(模型架构, token量, 训练数据多样性, 泛化能力)2、RL的作用（作用机制）RL ≈ 一个奖励驱动的路径偏移器• 将已存在于模型分布中的推理路径偏移为更高 reward 的选项• 提高成功率，但不生成新“知识”或“能力”3、提升路径（有效方向）想要获得新的 reasoning 能力 ≠ 强化训练需要更强的知识/经验（知识注入+架构优化+认知行为引导）RL不是创造能力，而是优化选择。

2025-04-27 10:43:19 564

原创一夜之间 GitHub 所有项目的底裤都被扒了，Devin 王炸更新！ DeepWiki

说实话，DeepWiki 这个想法真的挺棒的。咱们开发者，特别是刚接触一个新项目或者想给大型开源项目做贡献的时候，最大的障碍往往就是“看不懂”。文档要么没有，要么过时，要么写得云里雾里。绝对是福音！能快速上手真实世界的复杂代码，学习曲线陡然下降。快速熟悉新接手的项目（尤其是那些文档匮乏的“祖传屎山”），或者在技术选型时比较不同库的实现，效率会有很大提升。降低了贡献门槛，可能会吸引更多人参与进来，这对于整个生态都是好事。当然啦，刚出来的东西，肯定也有需要完善的地方。比如，AI 生成的内容准确度怎么样？

2025-04-27 10:41:20 1047

原创 ctypes— Python 的外部函数库

另请注意，如果回调函数是在 Python 控制范围之外创建的线程中调用的（例如，由调用回调的外部代码创建），则 ctypes 会在每次调用时创建一个新的虚拟 Python 线程。共享库导出的函数可以通过属性或索引访问。以这种方式创建的函数对象默认接受任意数量的参数，接受任意 ctypes 数据实例作为参数，并返回库加载器指定的默认结果类型。是以类似于编译器或运行时加载器的方式定位库（在具有多个版本的共享库的平台上，应加载最新版本），而 ctypes 库加载器的行为类似于程序运行时，并直接调用运行时加载器。

2025-04-26 23:08:57 896

原创 “谷歌版MCP”来了！开源A2A，不同厂商Agent也能协作

每个部分都有指定的内容类型，允许客户端Agent和远程Agent协商所需的正确格式，并明确包括对用户UI功能的协商，例如iframe、视频、网页表单等等。专注于让Agent以自然非结构化的模式进行协作，即使它们之间没有共享内存/工具/上下文信息，致力于实现真正的Agent多场景，不会将某个Agent局限为一种“工具”。“客户端”Agent与“远程”Agent之间进行通信，客户端Agent负责制定和传达任务，远程Agent则负责执行这些任务，或是提供正确信息，或是采取正确行动。

2025-04-26 23:01:34 558

原创 OpenAI姚顺雨：欢迎来到AI下半场！

我们正处于人工智能的中场。数十年来，人工智能主要致力于开发新的训练方法和模型。这一策略成效显著：从国际象棋和围棋击败世界冠军，到在SAT 和律师资格考试中超越大多数人类，再到在国际数学奥林匹克竞赛（IMO）和国际信息学奥林匹克竞赛（IOI）中获得金牌。在这些载入史册的里程碑背后——深蓝（DeepBlue）、阿尔法狗（AlphaGo）、GPT-4 以及一系列以“o”开头的模型——是人工智能方法的根本性创新：搜索、深度强化学习（RL）、扩展和推理。随着时间的推移，事情不断变得更好。

2025-04-26 22:57:37 823

原创 380篇文献！首份Agentic大模型最新技术综述

详细探讨了代理型大语言模型（Agentic LLMs）在交互能力方面的研究进展和技术方法：如何使LLMs能够与其他智能体（包括人类和其他LLMs）进行有效交互，从而实现更复杂的社会行为和协作任务。例如，在囚徒困境等重复博弈中，LLMs表现出较高的合作性，但在需要协调的博弈中表现较差。例如，Say Can通过结合语言模型和机器人动作的价值函数，确保机器人执行的行动是安全且可行的。例如，WebArena通过模拟真实世界的网络环境，使LLMs能够进行开放式的交互和学习。

2025-04-26 22:54:43 754

原创端到端的训练，怎么复现 Deep ReSearch（下）：前沿的产品形态

从整体来看，虽然这些模型在细节上有所差异，但它们都依靠推理来分解任务并执行多个步骤。Genspark：该模型的特点是首先进行“计划”阶段，但在执行过程中似乎没有进行“反思”或“回答并评估回答”这两个步骤。Grok：与Genspark相似，Grok同样缺乏“反思”及“回答并评估回答”这两个环节。Gemini：作为一个更为成熟的产品，Gemini在执行时会先进行“计划”阶段，并且能够判断哪些子任务可以并行处理，哪些需要串行执行。

2025-04-26 22:50:07 552

搜索引擎概览 searchengine

2024-11-19

11个代码生成相关的论文，20241022更新版本-持续更新，包含代码搜索、代码搜索、代码模型survey、代码评论评估、代码评

find . -mindepth 2 -maxdepth 2 -type f -name "*.pdf" | awk -F/ '{print $(NF-1)}' | sort | uniq -c 2 代码或bug分类 1 代码搜索 1 代码生成 1 代码模型survey 1 代码评论评估 5 代码评估与提示

2024-10-22

10篇代码生成的论文，包括代码评估、代码搜索、代码生成、survey、代码或bug分类

题目类型分区摘要精读链接 Comparing large language models and humanprogrammers for generating programming code 代码评估 arxiv 评估七种LLMs在生成编程代码方面的性能，探讨不同提示策略对LLMs编码性能的影响，直接比较LLMs与人类程序员的编程能力，评估LLMs在不同编程语言之间生成和翻译代码的能力，以及考察LLMs的计算效率和从过去错误中学习的能力。 A Comparison of the Effectiveness of ChatGPT andCo-Pilot for Generating Quality Python Code 代码评估会议包括评估ChatGPT和Copilot在解决LeetCode编程问题上的有效性，探讨ChatGPT在接收到反馈后纠正代码的能力，以及其在提高代码质量和性能方面的潜力。 Program Code Generation with Generative AIs 代码评估 MDPI水刊-Algorithms非SCI 比较了人类生成的代码

2024-10-21

Multimodal Representation for Neural Code Search

—Semantic code search is about finding semantically relevant code snippets for a given natural language query. In the state-of-the-art approaches, the semantic similarity between code and query is quantified as the distance of their representation in the shared vector space. In this paper, to improve the vector space, we introduce tree-serialization methods on a simplified form of AST and build the multimodal representation for the code data. We conduct extensive experiments using a single corpu

2024-10-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

搜索引擎概览 searchengine

11个代码生成相关的论文，20241022更新版本-持续更新，包含代码搜索、代码搜索、代码模型survey、代码评论评估、代码评

10篇代码生成的论文，包括代码评估、代码搜索、代码生成、survey、代码或bug分类

Multimodal Representation for Neural Code Search

[MDPI水刊Algorithm非SCI]Program Code Generation with Generative AIs

Evolving code with a large language model

avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.zip

空空如也