自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

强化学习曾小健

强化学习、大模型、AIGC、AGI

  • 博客(5159)
  • 资源 (1)
  • 收藏
  • 关注

原创 我叫曾小健,开发第一线:新Windows与开发环境:大模型LLM/量化 Win-Mac统一快捷键体验 win强制关机:shutdown /s /f /t 0

对于开发者用Windows来说,最大的建议就是不要用Windows,既然必须要用,那就来吧!!!

2023-07-24 10:45:24 457 1

原创 Ubuntu Linux AI大模型开发常用命令 - 更新中 包括NVIDIA状态,和安装相关常用软件包,没事就背背 - 背诵创造美好生活

Ubuntu AI大模型开发常用命令 - 更新中 包括NVIDIA状态,NVIDIA状态,实时更新:和安装相关常用软件包没事就背背,增加开发效率。

2023-06-21 11:28:05 674 1

原创 2025智能体元年!斯坦福科学家8000字讲清所有要点

凭借此功能,智能体可作为编码助手、数据分析师,甚至研究助手,编写代码开展实验和撰写报告。在对比AI智能体和人类操作员时,要记住人类和AI的工作方式差异很大,对人类高效的方法,对AI可能并不高效,反之亦然。Chip Huyen,对这一热门领域进行了深入研究,系统阐释了智能体的概念,分析了智能体在工具使用、任务规划、反思纠错等方面的技术要点,探讨了智能体可能出现的失败模式与相应的评估方法。在每个步骤中,智能体都要解释其思维过程(即做计划),随后采取行动,再分析行动产生的结果(即反思),如此循环,直至任务完成。

2025-09-18 15:16:26 417

原创 华为徐直军:明年Q1推出昇腾950PR芯片,四季度推出昇腾950DT,2027年推出昇腾960芯片,2028年推出昇腾970芯片

徐直军表示,算力过去是,未来也将继续是,人工智能的关键,更是中国人工智能的关键,他分享了昇腾芯片的后续规划。预计2026年第一季度推出昇腾950PR芯片。【华为徐直军:明年Q1推出昇腾950PR芯片]《科创板日报》18日讯,在华为全联接大会2025上,华为轮值董事长。2025-09-1810:28财联社官方账号。3、AI大模型,改变了软件产业范式。2、AI时代,大学生专业选择。Q1推出昇腾950PR芯片。四季度推出昇腾970芯片。原创 数字化专家老师。,2027年四季度推出。

2025-09-18 15:15:09 174

原创 Dify 1.8.1 更新来了!稳定性 + 性能 + 使用体验全方位升级

不是那种大改版的“加一个新功能/重做界面”的更新,而是“打磨体验 + 提升稳定性 + 修复麻烦 bug + 增强安全性”的那种。对开发者/运维来说,代码更干净、数据库操作更高效、类型检查+错的地方少很多。用户不满意某个回答的时候,不只是点一个“踩”,还能写原因。如果你/你的用户讲印尼语,用起来更本地化。这些是 “幕后”做的改进,普通用户可能感觉不到突然变快变好,但长期用下来会觉得稳定了很多。如果你在用 Dify,要升级到 1.8.1,可以注意下面几点,以确保平稳过渡。方便辨识你上传/提问的是哪个文件。

2025-09-18 15:11:40 469

原创 每个Prompt都帮你省几百!我用即梦4.0复刻了几套海马体写真nano banana

没有强烈明显的光线,高光低,暗光高,色彩色调高度统一,背景轻微虚化。冷色调氛围,没有任何暖色调,整体明亮通透。柔焦效果,低饱和度,高对比度,哑光质感,电影灯光,35mm胶片摄影风格,充满故事感和私密感。首先,在指令遵循方面,即梦4.0有时会忽略细节,甚至有2次会全部跑偏,直接给我输出了只有少量修改的上传原图。建议每次都批量生成,来避免来着神经网络的随机扰动,然后再从中选出效果不错的图片,也就是大家说的“抽卡”。这两张生成的图片我还挺喜欢的,尤其是服装,其实不太是我的穿衣风格,但即梦还意外搭配的挺合适。

2025-09-18 15:09:54 202

原创 小平邦彦:从“只会算术”到亚洲首位菲尔兹奖得主的树懒人生

1954年他因“黎曼-罗赫定理的高维推广”获菲尔兹奖,领奖前竟想偷懒缺席,被外尔强行劝去。1915年生于东京的小平邦彦,幼年自嘲“讨厌上学”,文科成绩惨淡,因口吃遭同学嘲笑。当今天学子翻阅《我只会算术》时,这位老人仍在低语:“数学的星光,永远照耀那些愿为它‘浪费’一生的人。从东京陋室到普林斯顿殿堂,他未改初心——那枚因“懒得参会”险些错过的菲尔兹奖章,最终成为亚洲数学崛起的象征。将外尔的黎曼面理论推广至高维,解决紧流形上的椭圆算子问题,外尔赞其为“伟大工作”。作者/柏舟 编者/柏舟。

2025-09-18 15:02:34 229

原创 物理学家费曼:知识框架决定认知水平

现代科学认为冰层与空气接触的表面存在一个半熔化的过渡层,过渡层内部具有逐渐变化的结构,其中冰水混合物中的微型冰粒通过范德华力和氢键之类的作用力连结,形成了可以贮存液态水的多孔结构。孔子在《论语》中告诫我们“学而不思则罔,思而不学则殆”,意思是学习但不思考就会迷惘,后半句更严重——只思考却不学习,那就很危险了。再回到上面的问题上来,如果没有数学的计算,没有实验的验证,任何类似这种。磁场、电场这些概念,其实本身并没有什么值得特别注意的,因为电场磁场这些概念,是不可能用人类语言去描述它们的。语于海者,拘于虚也;

2025-09-18 14:57:04 505

原创 LLMInference高效Debug方法汇总

如今的LLM推理框架结构愈发复杂,各种并行策略、分离策略、投机采样以及Function call等功能都需要在框架侧实现,在添加自己定制化功能的过程中,如果出现问题,debug起来非常头疼。本文结合我个人的一些工作经验,将基于vLLM介绍LLM推理过程中的一些常用debug技巧。重点会放在分布式推理系统中。Log最常见的debug方法就是逐行添加日志。如今的推理系统大多支持了continuous batching。

2025-09-18 14:42:20 214

原创 DeepMind哈萨比斯最新认知都在这里了

哈萨比斯:实际上,我预见了一个世界,作为一名在90年代就开始投身游戏行业的游戏设计师和程序员,我对此思考颇多,我认为未来娱乐将出现全新的艺术形式,即一种融合共创的体验。哈萨比斯:有趣的是,我认为这两种情况都是真实的,尤其是我们谷歌和DeepMind这类需要每日为数十亿用户提供AI概述服务的企业,它必须极其高效、极低延迟且服务成本非常低廉。在今年夏天发布的演示中,有两个机械手在桌面上操作物体,你可以直接和机器人对话,比如“把黄色的物体放进红色的桶里”,它就能将语言转化为精准的动作指令。

2025-09-18 14:39:19 417

原创 埃森哲-AI规模化应用指南::8%寡头已靠AI再造一条产业链,92%老板却还在PPT里“自动驾驶”

今天文章里这 5 个反常识动作 + 3 个暗黑科技 + 1 张行军地图,的企业把 AI 玩成了“印钞机”,剩下 92% 还在“电子宠物”• 安联集团把“隐私与伦理内嵌设计”做成产品卖点,• 保险:把核保从“人审”变“AI 秒批”,占数据总量 80%,却长期躺在“冷坟场”。把 40 年老技师“听声音判故障”的手艺,等于凭空多出一个“不开工资的销售铁军”。所以,别再问“做 RAI 要花多少钱”,就是领跑者不想让你太快学会的“加速器”。凡是一开口就“降人力、省预算”的项目,• 模型训练→微调→回灌→监控→合规,

2025-09-18 14:15:06 409

原创 机器人从虚拟到现实不翻车!Roboscience推出高精度通用物理仿真平台,精准复刻魔术操作

仿真器就像一个“全知的世界”,研发人员能实时获取任意时间点、任意空间位置的物理信息,比如机械臂指尖与物体接触的瞬时压力分布、软体变形的内部应力变化,这些数据在真实世界中需要部署大量传感器,花上大量的时间、人力和资金才能勉强采集,且精度往往受限;通过实时获取插接产生的反馈力,模型还能动态调整操作策略。家具拼装被认为是迄今最复杂、精度最高、步骤最多的具身操作任务,要求仿真引擎不仅要具备高精度的物理模型,以准确模拟不同材料和形状的物体在拼装过程中的行为,还要有良好的实时性能,以支持动态场景下的交互和反馈。

2025-09-18 12:23:11 248

原创 大疆教父李泽湘和他的机器人军团

正是李泽湘选人的关键途经。这场比赛每年会围绕特定主题设计任务,要求参赛团队在资源有限、时间紧迫的条件下完成机器人研发与竞技。而早在2004年,李泽湘就把ROBOCON机器人竞赛搬进港科大的课堂,推出了一门。

2025-09-18 12:22:06 527

原创 Dify 实战:工作流实现 “热点新闻搜索 + 发送飞书卡片” 的功能

结合 Dify 的工作流编排能力、新闻插件接口(如rookie rss )和飞书机器人 Webhook实现热点追踪和飞书卡片推送功能。URL:飞书机器人 Webhook 地址(如 https://open.feishu.cn/open-apis/bot/v2/hook/xxx)。通过以上步骤,即可实现 Dify 工作流自动抓取热点新闻并发送飞书卡片的功能,适用于团队信息同步、实时热点监控等场景。测试 “飞书卡片节点”:单独调用飞书 Webhook,确认卡片格式正确(可先用固定 JSON 调试)。

2025-09-18 11:51:19 459

原创 Dify 2.0 重磅升级!知识管道登场,RAG 开发效率直接翻倍

上周dify发布了1.8.1以后,随后又发布了预览版dify 2.0.0 作为dify的大版本升级,更新的内容会比较多,如果是生产环境,建议先不要升级,等到正式发布以后再动,如果只是体验,可以直接升级。dify的下一个工作,rag2.0,当时我和他们的产品聊过rag2.0,核心的rag不会变动太多(dify本身rag能力够用,问题最多的在于文档格式)。单纯的从解析出来的内容来看,多模态对图片进行了简单的描述,方便检索到对应的图片,同时内容的准确度也有极大的提升。创建以后,可以看到依赖一堆的插件。

2025-09-17 16:37:16 730

原创 炸裂黑科技,脑波沟通来了!AlterEgo让你在大脑中发声

AlterEgo 是一种非侵入式、可穿戴的外围神经接口,使人类能够用自然语言与机器、人工智能助手、各种服务以及其他人进行交流,而无需发声,无需张口,也无需任何外部可观察的动作,只需在脑中内在地“发声”。利用 Silent Sense 技术,它能够在你不发声的情况下理解你的意图,让你在无需打字、点击或大声说话的情况下扩展思维。除此之外,该系统还有潜力将人类与计算机无缝整合,使计算、互联网和人工智能融入我们的日常生活,成为“第二自我”,增强我们的认知和能力。炸裂黑科技,脑波沟通来了!炸裂黑科技,脑波沟通来了!

2025-09-17 16:29:48 415

原创 81岁逆袭马斯克:Larry Ellison如何凭Oracle坐上世界首富的宝座?

宏观背景:AI带动全球算力基础设施需求井喷,资本从消费互联网转向底层科技。企业战略:Oracle云业务起死回生,赶上了AI算力红利。个人布局:Ellison保持高比例持股(41%),远高于很多稀释股份的企业家,因此股价一涨,他直接暴富。相比之下,马斯克的特斯拉在2025年表现不佳,销量下滑、政策博弈不断,让他的财富曲线暂时“失速”。结语马斯克的张扬与Ellison的老谋深算,代表了两种硅谷叙事:一个是火箭、汽车、社交媒体的舞台剧;另一个是数据库、云计算、AI的“暗流涌动”。在AI时代,谁能笑到最后。

2025-09-17 16:28:26 375

原创 Dify平台工作流编排教程-从基础概念到实施落地(附案例)长文慎入

1. 核心节点功能表节点名称类型功能描述典型应用场景开始(Start)核心节点定义工作流启动的初始参数,作为流程起点初始化用户会话、设置默认参数结束(End)核心节点定义工作流结束的最终输出内容,作为流程终点返回最终结果、结束用户交互回复(Answer)核心节点定义Chatflow中的回复内容,直接输出给用户生成自然语言回复、提供解决方案大语言模型(LLM)AI/模型节点调用大语言模型处理自然语言任务(如生成、推理)回答问题、创作文本、语义分析。

2025-09-17 16:27:44 779

原创 炸裂黑科技,脑波沟通来了!AlterEgo让你在大脑中发声

AlterEgo 是一种非侵入式、可穿戴的外围神经接口,使人类能够用自然语言与机器、人工智能助手、各种服务以及其他人进行交流,而无需发声,无需张口,也无需任何外部可观察的动作,只需在脑中内在地“发声”。AlterEgo 通过高精度传感器读取这些细微的神经肌肉活动,再经由人工智能算法进行实时识别和语义转换,从而将使用者的“内部语音”转化为机器可理解的指令或查询。除此之外,该系统还有潜力将人类与计算机无缝整合,使计算、互联网和人工智能融入我们的日常生活,成为“第二自我”,增强我们的认知和能力。

2025-09-17 11:03:58 223

原创 π0.5开源:Physical Intelligence 官方 GitHub 9月份仓库更新

随着开源推动全球合作,π0.5 有望成为机器人学中的通用基础设施,推动机器人从“工具”走向“伙伴”。消融实验及表现分析针对不同数据源进行消融(如去除 Web 数据、跨形态机器人数据等),评估其在“分布内”(In-distribution)与“分布外”(OOD,即未知环境)任务中的表现差异。可以说,Franka机器人 不仅是训练数据的重要来源,更是 π0.5 实现从“仿真走向现实”的关键桥梁。中,可以执行复杂长期任务(如清洁、整理等),显示出显著的泛化能力,远超前一代模型 π0。

2025-09-17 10:11:16 713

原创 详解主流的强化学习框架slime,包括和其他主流RL框架的优劣和异同对比,再解释下online RL在线强化学习的概念和原理

slime是清华 THUDM 团队开源的一套面向大模型后训练(post-training)的强化学习框架,主打“RL Scaling”(让 RL 训练在大模型、长周期、海量并发的场景里跑得起来、跑得快)。官方给出的两大能力是:通过(训练)与SGLang(推理/采样)的原生打通,提供高性能训练;提供可定制的数据生成(rollout)接口与服务化采样引擎,方便把任意 agent/环境接进来做大规模 RL。GitHub+1。

2025-09-17 10:02:29 578

原创 一台不到两万的小怪兽:AMD锐龙395真能撑起千亿大模型吗?| 前沿在线

现在借助锐龙AI MAX+ 395,哪怕是没有编程经验的朋友,也能在 LM Studio 作为本地大模型平台,为 N8N 自动化工作流工具提供大模型API调用,做出一键分析 B 站数据的“小助手”。或者快速用AI协助制作真实工作需要的便利小工具如 KPI 检查工具:输入表格,选择对应的时间和活动,工具帮你核查逻辑合理性,输出结论。“AI 的普及,不只是卖硬件,更要让开发者、学生、小企业有工具可用,有社区可依赖。这场没有大屏幕、没有灯光秀的沙龙,留下的最大记忆点,不是热闹,而是冷静的冲击感。

2025-09-17 05:47:39 928

原创 深度丨Salesforce前CEO:Agent按结果付费将取代订阅制;语音交互会超过文本,成为下一代用户界面的核心

从 ADT 家庭安防,到纽约的 Ramp,再到 SiriusXM,都在用我们的智能体来接电话、提供在线交互,或者和用户展开对话。之后,我和 Clay Bavor(我认识他 20 年了)约了一顿午餐,本没打算一起创业,但吃着吃着,我发现他和我一样痴迷。但我想问的是,你是否认同这样一个假设:如果模型真的变成了“基础设施”,只要能即插即用,那差异化就会越来越小。如果未来你能在开车时和 Agent 对话,帮你处理邮件,或者像一个“博士级别的私人助理”一样,随时提供服务,那会让通勤变得超级高效。

2025-09-17 05:46:38 570

原创 超越GRPO!北大联合字节提出难度感知的自适应RL算法DACE,显著提升LLM复杂推理能力

固定不变的探索或利用策略是存在根本缺陷的,智能体的表现高度依赖于环境难度,因此,一个先进的算法必须能够感知任务难度并据此自适应地在探索和利用之间进行切换,这便是DACE的核心思想。这表明DACE在训练中期注入了一个关键的探索阶段,使模型能够发现更多样、更稳健的推理策略,从而最终获得性能优势。这些结果表明了DACE所采用的动态方法,在难题上探索、在简单题上利用,对于复杂的竞赛级推理任务尤为有效。然而,该方法依赖于稀疏的、基于结果的奖励机制,仅能判断最终答案的正确性,无法为推理过程本身提供细粒度的指导。

2025-09-17 05:40:23 829

原创 Cursor 的 online RL: RL Infra 的下一个好问题?

通过这个架构,我们可以收集用户数据用于训练,可以更及时地把一些实验的尝试推到线上,甚至可以利用线上业务的潮汐来缓解 RL 的算力问题,以及通过彻底复用线上服务与 RL 框架的 inference 服务,来提升服务稳定性,集中工程人力(强制内部只能有一个 inference 框架,强迫症友好~从我的角度来看,这个版本的 RL 框架已经进入了 pretrain 框架的状态,我们需要做的就是在较为稳定的 workload 上不停 profile,找瓶颈,堆人去优化瓶颈。,我们需要什么样的 RL 框架呢?

2025-09-17 05:36:50 545

原创 OpenAI最新封喉报告,把AI幻觉的遮羞布撕得稀碎! AI“张口就来”背后,竟是暗中奖励的“作弊游戏”?

这意味着,模型不再需要为每个 benchmark 学一套“讨好”策略, 一次训练,就能同时满足“敢答”“会拒”“不吹牛”。: 把 10 个最主流 benchmark 的打分方式全部拉出来: MMLU、GPQA、MATH、SWE-bench、BBH、IFEval、Omni-MATH、MuSR、HLE、WildBench 结果 9 个纯 0/1 制,唯一给“我不知道”一点情面的 WildBench,也只是把 IDK 打成 3~4 分,低于“答错但看起来努力”的 5~6 分。他们给这类事实起了个?

2025-09-17 05:34:46 601

原创 揭秘XML提示工程:如何让大模型变得更可靠

非结构化提示创造了我们可以称之为"无约束生成空间"的现象——模型可以在其学习的表示空间中探索任何方向,没有明确的边界。你正在利用transformer架构的优势(对结构化token的模式匹配),而不是在简单分隔符就足够的地方强制复杂解释。这不是关于实现理论完美——而是关于工程化在生产环境中可靠工作的系统,在那里用户输入是不可预测的,失败成本是真实的。没有明确的状态跟踪,这种上下文呈指数衰减——递减地平线的诅咒。当我们提供明确的层次组织时,我们本质上给模型一个上下文无关语法,减少解析和生成任务的计算复杂性。

2025-09-17 05:30:39 469

原创 图解AI核心技术:RAG、大模型、智能体

维度传统RAG检索方式单次、静态多轮、动态优化推理能力单跳,依赖人工设计多跳,自主分解任务上下文管理固定拼接动态筛选与精炼错误处理无自检机制结果验证与修正适用场景简单问答、文档摘要复杂推理、实时交互、工具调用演进本质:Agentic RAG将RAG从“管道流程”升级为“自主决策系统”,更贴近人类问题解决模式。策略核心逻辑优势局限性Fixed-size固定长度切割高效、通用语义断裂风险Semantic语义边界检测保留上下文计算复杂度高。

2025-09-17 05:29:33 286

原创 15年大佬深夜痛哭半小时!氛围编程巨坑曝光,95%程序员沦为「AI保姆」

他吐槽道,「一件事你得反复说十五遍,结果你要求的它只做了一部分,顺手做了一堆没要求的,还搞砸了别的东西」。即便如此,Kimara坚定地表示,就算自己成为了高级工程师,也会继续「氛围编程」,这对自己是真正的加速器。看起来,花更多时间,在「氛围编程」的「杂草堆」里埋头修bug,已经成为了开发者用这项创新不得不交的「税」。「氛围编程」经常会跳过严格的审查,但这些流程,本来就是传统写代码的根基,没它们,漏洞根本藏不住。AI编程的未来,不止于写代码,更要引导AI,在出问题时承担责任,并且扮演着AI顾问的角色。

2025-09-17 05:28:33 525

原创 英伟达押注!浙大校友获1.2亿美元投资!Dyna Robotics 30人团队估值6亿美元

Gao表示,Dyna并不通过编码指令来编程机器人执行任务,而是让它们通过从环境中获取的数据输入逐步学习。他指出,通过让机器人在现实世界中运行,Dyna的模型能够变得更快速、更智能。

2025-09-17 05:26:41 1081

原创 全球7亿人,是怎么使用AI的?

6、网上很多人都在说AI写代码有多牛逼,但从大众用户来看,这并不是主流用法,所有对话里,和计算机编程相关的只占4.2%,当然,这可能和很多专业的编程工具比如Cursor等等分流了用户有关。这个年龄段只有23%的用途和工作有关,是所有年龄段里最低的。7、GPT-5上线的时候闹的沸沸扬扬的情感陪伴占比就更少了,所有对话里,专门讨论人际关系和个人反思的,只占了微不足道的1.9%。,到了今年6月,这个数字飙升到了73%,用户会更多的把他当生活顾问,工作相关的使用量其实也在增长,但生活中的用途增长得更快。

2025-09-17 05:07:20 155

原创 姚期智对密码学的主要贡献, 以及讲述密码学和当今区块链 比特币的关系。为什么说量子计算如果被发明,当今所有的加密技术将会无效,这种说法正确吗

姚期智对密码学的主要贡献, 以及讲述密码学和当今区块链 比特币的关系。为什么说量子计算如果被发明,当今所有的加密技术将会无效,这种说法正确吗。

2025-09-17 05:06:44 965

原创 请详述GraphRAG技术几本原理和架构,并说明他和RAG技术最核心的异同和优劣

GraphRAG 优势多跳与全局能力强:社区报告 + 图邻域让模型能“连点成面”,回答跨段落/跨文档的综合问题。GitHub上的微软可解释&可控:能给出“涉及哪些实体/关系/社区”的证据路线,而不是只丢几块相似文本。GitHub上的微软主题导航:层级社区先验把“大语料 → 主题树”,利于探索与综述。MicrosoftGraphRAG 劣势索引成本高/流程复杂:抽取、合并、社区化与报告生成都要 LLM;官方也明确提醒索引可能很贵,建议小规模起步。GitHub抽取误差传播。

2025-09-15 16:00:49 899 1

原创 喜报|我校音乐人工智能科研成果NotaGen入选国际顶会IJCAI

音乐生成是人工智能与艺术交叉领域的重要研究方向,符号音乐(以乐谱或MIDI形式表示音乐)因其对音乐元素(如音符、和声)的精准表示而备受关注。过往的符号音乐生成模型往往面临生成乐曲音乐性不足、编制有限的问题。如何生成音乐性强、接近人类作曲水平的音乐作品,是该领域的一大挑战。

2025-09-15 15:21:05 1121

原创 苹果又一AI高管被曝离职,三月内连失三员AI大将

此前,已有多家媒体爆料苹果的AI团队存在管理瓶颈,决策机制滞后,创新节奏缓慢。此外,该团队的薪资福利与同行相比缺乏竞争力,难以留住顶尖人才。激烈的行业竞争与苹果自身的谨慎战略,使得苹果AI团队近期人才流动频繁,团队稳定性受到较大影响。随着更多高级工程师和管理者的跳槽或离职,苹果或许需要重新思考AI部门的组织管理和激励机制。来源:彭博社。

2025-09-15 11:44:17 879

原创 π0.5开源:Physical Intelligence 官方 GitHub 9月份仓库更新

随着开源推动全球合作,π0.5 有望成为机器人学中的通用基础设施,推动机器人从“工具”走向“伙伴”。在 π0.5 的训练体系中,可以采用Franka机器人训练,作为实际平台。泛化与环境数量关系研究显示,当训练环境数量逐步提高到约 100 个以上时,π0.5 在未知环境中的表现可接近于直接在测试环境上训练的基线模型,说明模型具备高效的泛化能力。开放世界泛化能力π0.5 在完全陌生的环境(如新厨房或卧室)中,可以执行复杂长期任务(如清洁、整理等),显示出显著的泛化能力,远超前一代模型 π0。

2025-09-14 23:50:56 1018 1

原创 刘波 耳鼻咽喉头颈外科 武汉协和

中国医药教育协会眩晕专业委员会常委,湖北省病理生理学会耳鼻咽喉头颈外科专业委员会会副主任委员等。任《中华耳鼻咽喉头颈外科杂志》、《听力学及言语疾病杂志》等期刊编委。主持国家自然科学基金面上项目、省自然科学基金等科研项目,发表相关论著50余篇,曾获中华医学科技奖一等奖等奖励。长期从事内耳疾病的基础研究工作,擅长眩晕、耳聋和耳鸣等。的临床诊疗,在国内最早系统的开展眩晕疾病的前庭脊髓发射功能研究。在眩晕、耳鸣和耳聋内科诊疗方面积累了丰富的经验。的个体化综合治疗、突发性耳聋和。眩晕、耳聋和耳鸣等内耳疾病。

2025-09-12 00:56:44 275 1

原创 姚顺雨 个人简介

Carlos E. Jimenez*、John Yang*、Alexander Wettig、Shunyu Yao、裴可欣、Ofir Press、Karthik Narasimhan。一个通过互联网导航和推理来为您进行研究的代理。ICLR 2023(口试,前 5%)过精准的语言代理实现可扩展的真实世界。NeurIPS 2023(梦想)婴儿知道什么(伊丽莎白·斯佩尔克)科学与工程的艺术(理查德·汉明)字世界交互的通用代理/接口。ICLR 2024(梦想)(最后更新:2025年2月)双螺旋(詹姆斯·沃森)

2025-09-11 19:55:09 968

原创 使用GraphRAG读小说《凡人修仙传》

知识图谱(knowledge graph )是一种结构化的方式来表示现实世界中的人、事、物及其相互关系。知识图谱里的实体可以代表各种事物,比如具体对象、发生的事件、特定情境或抽象概念。实体之间的联系则体现了它们相互关联的背景和含义。之前传统 RAG 方式实际上效果不佳,各个信息比较碎片化,所以我们希望将这些概念之间的复杂关系展现出来。在查询时,不再是大海捞针去找「可能相关」的信息碎片,而是根据图谱中已经掌握的关联,提取一整串相连的信息,让大语言模型来一并处理。

2025-09-11 17:52:53 695

原创 用AI操作电脑:由Claude提出,被智谱GLM沉思一路发扬光大

AI和大模型出现后,大家接触最多的模式都是和AI对话,得到的结果也仅是训练进大模型的知识,而被训练的知识总是有滞后性的,想要有更加实时的信息,纯粹大模型的内容就不再足够。接着,他们用步级的强化学习去对大模型做训练,这也是整个训练中的主要部分,主要是做了一个自动验证器给模型完成任务的结果打分,奖励模型验证的是整条电脑使用的策略轨迹。而AI不行,通过视觉模型看到屏幕,AI的注意力就会被整个屏幕上的所有内容分散,这加大了整个运算的算力需求,也降低了桌面使用的准确性。在通过什么方式优化?

2025-09-11 17:47:45 810

【长江证券】水下听风,智领深蓝【发现报告 fxbaogao.com】.pdf

【长江证券】水下听风,智领深蓝【发现报告 fxbaogao.com】

2025-06-04

搜索引擎概览 searchengine

搜索引擎概览 searchengine

2024-11-19

11个代码生成相关的论文,20241022更新版本-持续更新,包含代码搜索、代码搜索、代码模型survey、代码评论评估、代码评

find . -mindepth 2 -maxdepth 2 -type f -name "*.pdf" | awk -F/ '{print $(NF-1)}' | sort | uniq -c 2 代码或bug分类 1 代码搜索 1 代码生成 1 代码模型survey 1 代码评论评估 5 代码评估与提示

2024-10-22

10篇代码生成的论文,包括代码评估、代码搜索、代码生成、survey、代码或bug分类

题目 类型 分区 摘要 精读链接 Comparing large language models and humanprogrammers for generating programming code 代码评估 arxiv 评估七种LLMs在生成编程代码方面的性能,探讨不同提示策略对LLMs编码性能的影响,直接比较LLMs与人类程序员的编程能力,评估LLMs在不同编程语言之间生成和翻译代码的能力,以及考察LLMs的计算效率和从过去错误中学习的能力。 A Comparison of the Effectiveness of ChatGPT andCo-Pilot for Generating Quality Python Code 代码评估 会议 包括评估ChatGPT和Copilot在解决LeetCode编程问题上的有效性,探讨ChatGPT在接收到反馈后纠正代码的能力,以及其在提高代码质量和性能方面的潜力。 Program Code Generation with Generative AIs 代码评估 MDPI水刊-Algorithms非SCI 比较了人类生成的代码

2024-10-21

Multimodal Representation for Neural Code Search

—Semantic code search is about finding semantically relevant code snippets for a given natural language query. In the state-of-the-art approaches, the semantic similarity between code and query is quantified as the distance of their representation in the shared vector space. In this paper, to improve the vector space, we introduce tree-serialization methods on a simplified form of AST and build the multimodal representation for the code data. We conduct extensive experiments using a single corpu

2024-10-21

[MDPI水刊Algorithm非SCI]Program Code Generation with Generative AIs

[MDPI水刊-非SCI]Program Code Generation with Generative AIs

2024-10-21

Evolving code with a large language model

Evolving code with a large language model

2024-10-19

avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.zip

avx2_tensorflow1.9.0_win,avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.whl

2020-04-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除