2025年04月_强化学习曾小健

05月 04月 03月 02月 01月

原创人类不再孤独！科学界: K2-18b发现外星文明，发现的到底是什么东西？

这个程序中，所有的硬件都是可以被软件程序模拟的。这样，世界就成为纯粹的程序（数据库）。目前，人类科学家们正在积极寻找地球以外的外星生命，正在向火星、金星以及木星、土星充满海洋的卫星等、发射地外文明探测器，正在探索其他恒星周围的行星，并在它们的大气层中寻找生命的迹象，就在你读到这篇文章的时候，望远镜甚至正在扫描夜空外星文明，监听它们的通信信号。地球资源肉眼可见的耗尽，可再生能源利用少得可怜，而文明的大过滤器也许就会出现在不久的未来，可以说今天留给人类的时间不多了，因此探索宇宙深空是必然的，也是必须要走的路。

2025-04-26 22:43:02 907

原创 NB，豆包一口气给我画了20个分镜，还能保持一致性

无论是分镜还是绘本，豆包都能稳定生成20张以内的图片（也可以通过“连续对话”生成超过20张的图片），且都能保持一定的一致性，人物、场景、风格一致。先给大家看一些我跑的case，成功率还是比较高，少部分跑了2-3次，大部分都是一次生成。3）绘本创作，你可以让豆包先生成一个人物特点介绍的描述，然后用这段描述来固定分镜的主体人物，这样可以提升主体一致性。即使用户的提示词不够精确，豆包依然能够理解其意图，生成符合用户期待的高质量图片。4）偶尔二次修改，豆包不工作，建议手动@出图像生成，保持在图像生成技能下使用。

2025-04-26 22:35:55 735

原创 NICE54期 | AION-1：首个面向天文学的大规模多模态基础模型

和William Wang合作，主要研究方向为llm reasoning和llm-based agent，在NLP和ML的顶会ACL EMNLP ICLR Neurips TACL等等发表多篇论文，并在ACL担任Area Chair。除了在天文学中的应用，AION-1 还为构建可扩展的多模态科学基础模型提供了一个蓝图，能够无缝整合现实世界中多种异构观测数据。虽然基础模型在多个领域展现出了巨大潜力，但天文学由于其数据模态高度多样，目前仍缺乏一个统一的联合建模框架。2025年04月08日 16:45。

2025-04-26 22:28:12 371

原创 RL也能请“场外大神”？LUFFY打破模仿僵局，平衡探索与学习，解锁深度推理新境界！

LUFFY所开创的“边学边练”范式，为大模型推理能力的训练提供了一条兼顾效率与效果的新路径。通过桥接“模仿学习”和“强化学习”这两种思路，LUFFY证明了离策略指导在提升模型高阶推理能力上的巨大潜力：模型可以突破自身的先天局限，吸收更强者的经验而又不失自我进化的空间。这一方法具有相当的通用性：未来，随着更强大的推理模型出现，我们完全可以将其作为“教师”融入LUFFY框架，不断提高“学生”模型的上限；同时，“边学边练”的理念也有望推广到数学之外的其它复杂推理领域，比如代码推理、科学问答等。

2025-04-26 22:23:19 546

原创揭开o3的神秘面纱，港中文/UIUC/普林斯顿联合推出OTC-PO，让你的Agent既聪明又高效

这里最核心的思路是根据模型在当下这个交互行为中工具的调用次数 m 以及最优的工具调用次数 n 去给于模型不同的奖励函数。具体来说，在答对的情况下，我们希望模型在取得最优工具调用的时候能够获取最大的奖励，在使用了更多的工具调用的时候奖励是相对小一点的；在答错的情况下，我们希望模型不会获取奖励或者根据调用次数获得的奖励相对较小，从而最大程度的规避奖励黑客现象 (i.e., Reward Hacking)。具体来说，我们设计了如下的奖励函数：

2025-04-26 22:16:40 1009

原创如何让LLM通过RL又好又准地使用工具？

当前大语言模型在使用工具时大多依赖人工标注的监督微调，但这种方式难以应对复杂的工具使用场景。本文提出一种全新的训练范式——ToolRL，首次系统性地探索如何为“工具选择与使用”任务设计强化学习中的奖励函数。研究团队基于这一奖励设计，采用了改进版的策略优化算法 GRPO，对模型进行训练，效果显著提升。这项工作不仅提升了模型的泛化能力，还让语言模型展现出更强的主动性和元认知能力，为未来更智能的人工智能体训练奠定了重要基础。

2025-04-26 14:47:19 536

原创五一前再带大家卷一波Go高质量面试题

例如，使用 Mutex 加锁后，但在访问共享资源时使用了原子操作而没有使用 Mutex 进行保护，这样其他线程可能会在没有正确同步的情况下访问共享资源。3.** 无竞争条件：**如果多个线程对堆上的内存进行操作，但它们之间没有竞争条件，即它们的操作不会相互干扰或产生不一致的结果，那么也不需要对堆上的内存进行加锁。后面的提问你的理解是正确的：如果变量的生命周期不可知，编译器会认为它会逃逸到堆上，并在堆上进行分配。栈上的内存分配是自动管理的，当变量超出作用域时，栈上的内存会自动释放。

2025-04-26 14:37:11 626

原创 Information Set Monte Carlo Tree Search

本文探讨了蒙特卡罗树搜索（MCTS）在处理具有隐藏信息和不确定性的游戏中的应用。

2025-04-25 16:22:30 1014

原创 A Generalized Reinforcement-Learning Model:Couverge mee andAppieatioma

广义MDP模型中的Bellman方程定义为其中，⨂ 和 ⨁ 是操作符，分别表示对动作和状态的总结。具体来说，对于MDP，⨂af(x,a)=maxaf(x,a) 和 ⨁yg(x,a,y)=∑yP(x,a,y)g(x,a,y)；对于交替Markov游戏，⨁yg(x,a,y)=∑yP(x,a,y)g(x,a,y) 和 ⨂af(x,a)=maxaf(x,a) 或 minaf(x,a)。这个方程的意义在于它提供了一种统一的方式来描述和求解多种强化学习场景中的最优行为。

2025-04-25 15:26:21 630

原创 Trae 如何赋能 Android 开发

在AI技术深度改变软件工程实践的当下，字节跳动推出的 Trae AI以"人机协同"为核心定位，正在重塑 Android 开发者的工作流。作为国内首个 AI 原生 IDE，其核心价值不仅在于代码生成能力，更体现在对开发全链路的智能化重构。本文将以功能模块解析+场景化案例的形式，系统性拆解 Trae 对 Android 开发者的赋能路径。

2025-04-25 15:25:56 632

原创 PLoS Complex Sys | 如何在激烈竞争中活到最后？原来“抱大腿”才是智人逆袭的关键

原创 PCS2025年04月24日 00:03北京10万年前的非洲，智人还只是众多人科物种中的普通玩家。但短短几万年后，他们突然技能点满——发明艺术、语言、远程贸易，甚至组建跨部落联盟。考古学家称之为"现代人类行为大爆发"，但背后的原因一直是个谜。正是在人类进化的历史长河中的一个关键时期——中石器时代（Middle Stone Age，简称MSA），人类的行为发生了翻天覆地的变化：他们开始使用复杂的工具，有了艺术创作，甚至出现了跨群体的贸易和合作。

2025-04-25 14:54:13 812

原创 Nature Communications | 为什么有些人能一眼看透人性？大脑动态分类的奥秘图片你有没有遇到过这样的人——初次见面就能精准预判你的性格，仿佛自带“人性扫描仪”；在复杂社交中游刃有

实验中，参与者看到的是一些由不同形状组成的图像，这些图像在一个二维的“形状空间”中变化，就像在一个虚拟的“形状地图”上移动。参与者的任务是根据不同的规则将这些形状分为两类，比如按照形状的某个特征（比如“长”或“短”）来分类，或者按照形状在“地图”上的位置来分类。过去，我们总是把大脑的不同区域看作是各自独立的“功能模块”，但这项研究表明，大脑的各个区域之间其实存在着紧密的互动和协同工作。视觉皮层不仅仅是一个“图像处理器”，它还能够根据当前的任务目标来调整自己的工作方式，帮助大脑更好地完成复杂的决策任务。

2025-04-25 14:25:09 780

原创 Nature最新文章｜选用AI科研工具的终极指南

通过浏览器插件识别Google Scholar或PubMed论文中的开源代码，用户可通过关键词搜索代码，解决因文档不全或代码停更导致结果难以复现的痛点，避免重复造轮子。通用型AI在应对科学写作的专业规范（如术语精确性、文献引用格式）时存在局限，为此，开发者已着手研发专门适配科学、技术与医学领域研究者及学生需求的垂直化平台。💡案例：从事癌症检测机器学习研究的人员，可通过CatalyzeX搜索改良版数据处理流程，针对性解决公开数据普遍存在的样本量不足的问题。》文章，为科研人提供了学术研究各环节的AI使用指南。

2025-04-25 14:23:00 686

原创 Cursor Rules在实际开发中的三种层级&实际应用（附20个常用Rules）

原创蔡蔡啊 ai呀蔡蔡 2025年04月24日 17:19 广东公众号之所以单独出这篇内容，主要两个原因：第一，之前提到 .cursorrules将被移除，大家现在就可以迁移使用Project Rules，控制代码更精准，也介绍了Project Rules的工具集（cursor.directory）和实际用法，但后面收到一些小伙伴反馈：cursor.directory的 Rules 都是英文的，有没有中文版？在实际开发中还是不太会用Project Rules......第二，虽然之前有分享过如何根据不

2025-04-25 14:06:40 807

原创 18岁高中生开发APP年入上亿，发帖炫耀后遭名校集体拒收！转自：InFOQ整理 | 华卫、核子可乐近日，18 岁的 AI 科技公司联合创始人兼 CEO Zach Yadegari 在社交平台上透

Y Combinator 的 Garry Tan 也在 X 平台上发表了看法，“坦白”自己当年申请大学时也遭到大量拒绝并被列入候补名单，“因为我读了 Ayn Rand 的 The Fountainhead 后重写了我的入学论文，Rand 的客观主义哲学似乎一直是个有争议的话题。据称，Yadegari 曾和 Cal AI 的其他联合创始人在旧金山的一个黑客公寓里花了一个夏天打造产品原型，他原以为自己会成为那种“典型”（即便有些老套）的大学辍学科技创业者，身边的导师和投资人也鼓励他勇敢走自己的路。

2025-04-25 14:05:29 905

原创 OpenAI押注的独角兽发新VLA模型，让机器人再也不怕陌生环境

尽管π0.5仍存在不足，但通过让机器人从多样化的知识来源中学习，其训练方法让我们离“灵活的物理智能”更近了一步。未来还有许多挑战待解决：机器人可以利用自身经验，在更少人类指导下自我提升；在陌生环境中，它们可以主动求助或请求建议；同时，知识迁移技术和数据多样性也需进一步改进，以推动机器人技术的更广泛应用。Physical Intelligence还计划开源π0.5的代码和数据集，邀请全球机器人研究社区一起探索。或许不久的将来，家庭服务机器人就能真正走进千家万户！

2025-04-25 14:03:08 595

原创吴恩达来信：如何成为一名多语言编程者

如果你从一种语言切换到另一种执行类似任务但语法不同的语言——比如从 JS 到 TS，或从 C++ 到 Java，亦或从 Rust 到 Go——只要你掌握了第一门语言中的基本概念，你就能理解第二种语言中大部分提示所需的知识。例如，如果你希望 LLM 使用 React 框架来构建前端，理解 React 如何将前端拆分为可复用的 UI 组件，以及它如何更新决定网页显示效果的 DOM 数据结构，将会让你给出更精准的提示，并能在出问题时更容易地理解和修复错误。原创 DeeplearningAI。

2025-04-25 14:01:44 479

原创 ToolRL，训练llm更好的使用工具。

简单来说，就是给模型一堆工具 T 和一个用户问题 Q。模型需要一步步思考，决定调用哪个工具、怎么调用。每一步 k，模型要根据当前掌握的信息 sk（之前的思考、工具调用结果等）来决定下一步怎么做 rk+1，选哪些工具 Tk+1，以及具体参数。目标是让每一步的“即时奖励”尽可能高。论文有写，也会让整体的奖励最高。后半截好像实际没太能体现出来。在实际运行时，模型会根据prompt（包含可用工具列表和输出格式要求）来生成思考过程和工具调用。输出通常需要遵循特定格式，比如：

2025-04-25 14:00:53 313

原创 Manus AI完成7500万美元融资，估值暴增5倍

在产品推出后的前两周，仅使用Claude模型就花费了超过100万美元，这显示出Manus在技术应用上的高投入。目前，Manus已推出订阅服务，普通版本月费39美元，高级版本则为199美元，为用户提供了差异化的服务选择。援引知情人士消息，透露人工智能企业Manus AI近期完成了一轮大规模融资。这一注资不仅充实了Manus AI的资金储备，更显著提升了其市场价值，公司估值现已飙升至近5亿美元，约合。Manus公司选择保持沉默，而Benchmark也未回应外界的置评请求，使得此次融资背后的更多细节充满悬念。

2025-04-25 14:00:19 241

原创 UniToken：为统一多模态理解与生成打造信息完备的视觉表征

通过测试发现，第二阶段训练后的模型在指令跟随、布局图像生成等方面的表现均有待加强，故在本阶段进一步引入高质量多模态对话（423K）与精细化图像生成数据（100K），进一步增强模型对复杂指令的跟随能力。基于第一阶段对齐后的双边编码器所提供的完备视觉信息，本阶段在大规模图文理解与图像生成数据集上联合训练，通过控制数据配比（10M:10M）以均衡提升模型理解与生成任务的性能。ViT端到端微调：在模型的全训练流程中，动态微调连续视觉编码器的权重，结合精细的学习率控制策略以避免模型崩溃，进而适应广泛的任务场景。

2025-04-25 13:59:02 612

原创 GPU 利用率(Utilization) 是一个误导性指标!

是大型语言模型中众所周知的瓶颈，为此业界开发了诸如 FlashAttention 的内核融合技术来解决其内存受限的特性。性能的最佳指标之一。试图自动完成这项工作，但截至本文撰写时，该工具与 FSDP 等新型分布式策略兼容性不佳，且由于计算图中断问题，实践中未能兑现预期的加速效果。值得注意的是，英伟达 DCGM （数据中心 GPU 管理器）默认就提供流多处理器活动的监控数据。本文旨在揭示这一发现的过程，并分享我们在此过程中获得的其他洞见。计算资源和内存接口的使用率”，这种表述具有显著的语义不确定性。

2025-04-25 11:39:11 556

原创清华最新研究：强化学习竟是大模型的“应试教育”，并未突破原有潜力

不能只看“单次得分”，更要关注“潜力上限”。

2025-04-25 10:15:21 556

原创 gwy鼓励游戏出海！4月游戏版号更新！

在市场上类似产品较少，以及厂商们对“二次元”领域依旧持探索态度的背景下，这款游戏当年首次曝光，就因其独特的“二次元+射击”玩法而收获了大批关注，如今国服的测试准备工作也在紧张有序地进行中了。玩家在游戏中扮演被命运选中的‘先觉者’，在空岛和白厄之间穿梭，搜寻和打造强大的武器装备，与同伴合作，运用枪法与战术在无情的追杀中生存下来，用实力证明谁才是真正的胜者的同时完成使命！从分类来看，国产游戏中有70款是移动游戏，46款属于移动-休闲益智类别，还有2款是客户端游戏，并且有6款游戏获得了移动端与客户端的双重认证。

2025-04-25 10:12:43 324

原创对话智元姚卯青：人形机器人最快明年进厂“打工”，成本将与人工拉平

车是一个100多年的行业，它的供应链零部件整体的设计方案是相对成熟收敛的，但是机器人行业，一是本身设计还未收敛，二是供应商也很多，有些原来不是人形机器人的供应商开始针对人形机器人来做一些特定的零部件的供应，他们从产能到产品的一致性、工艺的规范性、采购能力和下线检测都处于比较初级的阶段，我们要花非常多的精力去跟他们去一起成长。原来比如做自动驾驶，是有一套成熟的体系的，但做具身之后，我们作为既有硬件数据又有研究模型团队，是在做全球第一个吃螃蟹的人，很多时候你思考的维度最终会归结为这个事情好像只能我来做。

2025-04-25 09:47:19 625

原创 cgo 具体是一个怎样的东西？

方式优点缺点适用场景subprocess 命令行调用简单、快速、易实现不够高效、不支持函数级别调用工具类程序动态库方式（.so）性能高，可共享内存编写复杂、调试麻烦嵌入式/对性能敏感的系统HTTP 服务易调试、语言无关、可扩展有网络延迟Web 服务、微服务gRPC高性能、强类型、语言无关配置复杂企业级服务、跨语言接口你打算用哪种方式？我可以针对具体方案提供模板或代码示例。

2025-04-25 00:47:26 845

原创 cpython/Lib/ctypes/util.py ctypes源码解析

这段代码的作用是：判断 Python 当前使用的MSVC 版本（Windows 特有）。根据该版本确定运行时 DLL（如msvcrt.dll通过 PATH 环境变量遍历查找指定库的实际路径，主要用于ctypes载入库时定位动态链接库。如果你还想了解这段代码是如何集成进的全局逻辑或其在 POSIX 系统上的 counterpart，也可以继续展开。需要我补充吗？

2025-04-25 00:42:40 887

原创刚刚，OpenAI图像生成模型API发布，Token计价，一张图花掉1.4元

就在刚刚，OpenAI 又宣布了一个好消息：他们正式在 API 中推出驱动 ChatGPT 多模态体验的原生模型 ——gpt-image-1，让开发者和企业能够轻松将高质量、专业级的图像生成功能直接集成到自己的工具和平台中。在实际使用中，这意味着用户生成低质量、中质量和高质量的方形图像，分别需要花费约 0.02 美元、0.07 美元和 0.19 美元，再加上文本输入价格，只能说这很 OpenAI。参考链接：https://openai.com/index/image-generation-api/

2025-04-24 13:58:00 513

原创《创始人行动指南手册》创业迷局破解：为什么有人3年上市，有人20年还在原地踏步？

原创胡华成创服家 2025年04月24日 10:48 江苏各位创始人会员朋友，咱们掏心窝子聊一聊！我是智和岛集团的胡华成，同时也是投融湾和创服家的创始人。在创业圈摸爬滚打这些年，最常被问到的问题就是：“您这三家公司到底是干啥的？能帮我们解决啥难题？”这么说吧，这三家公司就像给创业路上的你量身定制的“黄金搭档”。创服家是创业萌新的“领路人”，专门服务营收500万 - 5000万的早期公司。想象一下，你刚拿到创业地图，却连东南西北都分不清，创服家就是那个拽着你手把手教你认路的人。我们从商业模式打磨到发展路径

2025-04-24 13:38:28 838

原创如何 AI「拼好文」：生成万字报告，不限模型拿结构当核心，多步生成，构建完整而清晰的长文

这一步中，AI 不会试图“一把写完”，而是人一样：• 先挨个的写出各个章节• 把章节串成文章• 润色所有内容，配上图表、加上引用最终，搞出一个「拼好文」最终，AI 拼好文在这里，AI 会围绕着大钢结构，逐篇处理材料，针对性地生成摘要。比如，假定大纲，在刚刚的“如何变得更聪明”里有一节是“什么是聪明”，它就只抽出「有关聪明」的信息来提炼。同时它还会留下一串建议：这一节没有数据支撑，或者这一节可以分两块写。用到的主要 Prompt你是一个专业的学术助手...# 背景。

2025-04-24 09:15:47 368

原创从Math RL初窥LLM推理模型：是怎么work、哪些trick是有效的！

一下这些在base模型上面进行RL过程中的tricks可以看出，目前证明有效的都是要让训练又快又好的tricks，而对于恢复智商类的tricks目前基本是没有用的。主要原因我认为是这些策略虽然初衷是好的，但是在LLM的训练过程中起到了拖后腿的作用，无脑将模型往回拉。上面的介绍中，包含了基于 DeepSeek-R1-Distill-Qwen-1.5B这样的continue RL实验，也包含了基于qwen25-7B的zero RL的实验。而且基于distill的1.5B模型比7B的zero RL效果要好。

2025-04-24 02:27:49 836

原创上海海洋大学发布AI仿生观赏鱼“金鳞“：科技与自然的完美交融

而"金鳞"作为AI仿生鱼，无需喂食、不会生病，还能通过程序变换外观和游动风格，为家庭和商业水族箱提供了一种低维护、高趣味的替代方案。"金鳞"支持人机互动，当观众靠近水族箱时，它可以通过面部识别或手势感应做出反应，比如主动游近、跟随手指移动，甚至表演特定的动作序列。近日，上海海洋大学正式发布了一款名为"金鳞"的AI仿生观赏鱼，它不仅能够高度模拟真实鱼类的游动姿态，还结合了肌肉驱动技术和人机互动功能，为。也许不久的将来，我们会在海洋馆、家庭鱼缸，甚至茫茫大海中，看到更多的"金鳞"畅游其中。

2025-04-24 02:26:20 817

原创 simd实现条件分支的并行计算及其局限

通过这三个测试案例，可以看出： -SIMD在简单条件分支中优势显著（basic.c加速比8-33x）， -随着条件复杂度和计算操作延迟增加，收益逐渐消失（complex.c在1M数据后性能反降）， -分支预测和乱序执行使标量代码在复杂场景中更具韧性。分支预测与乱序执行标量代码可通过分支预测减少分支惩罚，SIMD则完全消除分支但需计算所有路径。当分支预测成功率较高时（如随机数据），标量性能更优。SIMD并行度与开销SIMD理论加速比8x，但实际受限于：混合操作（blendv）的指令开销。

2025-04-24 02:23:48 371

原创刚刚，OPEN AI 发布 GPT-4.1！史上最小、最快、最便宜三大模型，百万token上下文

例如，在SWE-bench验证测试中，GPT-4.1得分54.6%，较GPT-4o提升了21.4%，较GPT-4.5提升了26.6%。淘汰GPT-4.5预览版由于GPT-4.1系列在性能、成本和延迟上的优势，OpenAI将逐步淘汰GPT-4.5预览版，该版本将于2025年7月14日正式关闭。对于低延迟场景，GPT-4.1 nano表现尤为出色，是OpenAI迄今最快、最便宜的模型。GPT-4.1系列模型，包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。等方面表现优于前代。

2025-04-24 02:20:41 419

原创捕获AI的注意力：重复、幻觉、偏见背后的物理学

相图边界的变化可能会引发输出内容的剧烈转变，因为红色标记的 token（EVIL）现在成为了高度可能（并反复出现）的输出，而蓝色 token（GOOD）则变得极不可能出现。其中：：表示一条从起始 token 到当前 token的路径（例如，序列中一个 token 的注意力跳跃轨迹），：路径上的“作用量”，控制路径的重要性，：路径上累积得到的 Value 信息（来自 Attention），：路径空间的测度，表示对所有可能路径求和（类似 softmax over attention paths）

2025-04-24 02:11:05 862

原创 2w字长文｜一文深度解析 A2A 与 MCP

而是充分利用了。

2025-04-24 02:06:27 1027

原创宇树已经next level了！将参加格斗比赛，央视全网直播

据官方透露，这场机器人格斗大赛将在央视平台进行全程直播，并计划引入弹幕互动、胜负竞猜等玩法，观众不仅能围观，还能参与，真正将机器人竞技从“实验室”推向“赛场”。在过去，宇树G1曾经表演过舞蹈，也能踢足球、做功夫动作。但那些更多是展示优雅与协调性，而拳击、格斗，是场景应用难度的升级，是对机器人“抗压能力”的直接考验。他们不仅在软硬件方面持续优化，还申请注册了“功夫机器人”商标，并将部分技术数据对外开源，推动整个生态链的发展。随后画面一转，G1又与真人拳手短兵相接，出拳、闪避、反击，一气呵成。

2025-04-24 02:04:07 675

原创奥特曼：向AI说“请“和“谢谢“烧数千万美元，花得值！礼貌成本惊人

尽管这带来了额外的成本，但可能通过更高的用户保留率和更积极的口碑来抵消这些成本。这不仅反映了公司的价值观，也可能反映了市场现实：在竞争激烈的AI市场中，提供最佳体验的公司可能最终会胜出。这意味着，礼貌用语可能会影响模型对请求的理解方式，导致更详细的回答，而这些详细的回答需要更多的计算资源来生成。考虑到这些数字，"数千万美元"的礼貌用语成本实际上约占OpenAI年电费的10%左右，这确实是一个不容忽视的成本因素。

2025-04-24 02:02:44 360

原创 Agentic 是个谎言，本质还是经典RL

那最后我们总结一下，所谓的Agentic rl，无非就是把以前RL的内容重新搬了出来，放在更多更贴近我们生活的场景中进行训练罢了。我们做的只不过是把以前RL那些10mb的小模型，替换成了大模型，把以前大家刷分的atari，smac等环境换成了新的benchmark来做。实践的过程中，我发现核心难点还是在于环境的稳定性和并发性，大多数toy的工作都没办法支撑起500以上的并发，大部分环境也写的完全不行，我们的工作都卡在了如何写一个好环境（工具）上。

2025-04-24 01:52:23 1016

原创 ICLR 2025 | LLaVA-MoD：MoE蒸馏训练轻量化多模态大模型

在模拟蒸馏中，使用2.4M通用captioning和对话样本来学习教师MLLM的通用知识，以及1.4M多任务数据，包括VQA、文档、科学和OCR，以学习教师MLLM的专业知识。由于教师MLLM的知识丰富且复杂，学生MLLM难以一步掌握，因此我们将知识分解为通用知识和专业知识，分别进行密集到密集蒸馏和密集到稀疏蒸馏，以将这两个方面的知识传递给学生MLLM。蒸馏机制：如图2所示，设计了一个渐进式蒸馏框架，用于将知识从l-MLLM传递给稀疏的s-MLLM，包含两个阶段：模仿蒸馏和偏好蒸馏。

2025-04-24 01:48:37 621

原创机器人抓取：从深度学习、强化学习到VLA与VLM

资深机器人专家，卡耐基梅隆大学博士曾作为团队的技术负责人就职于网易伏羲，阿里巴巴达摩院和新加坡科研局，成功落地过多个项目和产品。2017年在卡耐基梅隆大学获得博士学位，2010年在南洋理工大学获得学士学位，其主要研究方向为机器人与自动驾驶；在RSS，ICRA，IROS，CORL，RAL，CVPR，ACL，NeurlPS，TPAMI等会议和刊物上发表多篇论文。

2025-04-24 01:47:22 370

搜索引擎概览 searchengine

2024-11-19

11个代码生成相关的论文，20241022更新版本-持续更新，包含代码搜索、代码搜索、代码模型survey、代码评论评估、代码评

find . -mindepth 2 -maxdepth 2 -type f -name "*.pdf" | awk -F/ '{print $(NF-1)}' | sort | uniq -c 2 代码或bug分类 1 代码搜索 1 代码生成 1 代码模型survey 1 代码评论评估 5 代码评估与提示

2024-10-22

10篇代码生成的论文，包括代码评估、代码搜索、代码生成、survey、代码或bug分类

题目类型分区摘要精读链接 Comparing large language models and humanprogrammers for generating programming code 代码评估 arxiv 评估七种LLMs在生成编程代码方面的性能，探讨不同提示策略对LLMs编码性能的影响，直接比较LLMs与人类程序员的编程能力，评估LLMs在不同编程语言之间生成和翻译代码的能力，以及考察LLMs的计算效率和从过去错误中学习的能力。 A Comparison of the Effectiveness of ChatGPT andCo-Pilot for Generating Quality Python Code 代码评估会议包括评估ChatGPT和Copilot在解决LeetCode编程问题上的有效性，探讨ChatGPT在接收到反馈后纠正代码的能力，以及其在提高代码质量和性能方面的潜力。 Program Code Generation with Generative AIs 代码评估 MDPI水刊-Algorithms非SCI 比较了人类生成的代码

2024-10-21

Multimodal Representation for Neural Code Search

—Semantic code search is about finding semantically relevant code snippets for a given natural language query. In the state-of-the-art approaches, the semantic similarity between code and query is quantified as the distance of their representation in the shared vector space. In this paper, to improve the vector space, we introduce tree-serialization methods on a simplified form of AST and build the multimodal representation for the code data. We conduct extensive experiments using a single corpu

2024-10-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

搜索引擎概览 searchengine

11个代码生成相关的论文，20241022更新版本-持续更新，包含代码搜索、代码搜索、代码模型survey、代码评论评估、代码评

10篇代码生成的论文，包括代码评估、代码搜索、代码生成、survey、代码或bug分类

Multimodal Representation for Neural Code Search

[MDPI水刊Algorithm非SCI]Program Code Generation with Generative AIs

Evolving code with a large language model

avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.zip

空空如也