自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

强化学习曾小健

强化学习、大模型、AIGC、AGI

  • 博客(299)
  • 资源 (1)
  • 收藏
  • 关注

原创 何恺明LeCun联手改造Transformer!9行代码替代归一化层,性能不减还加速

来源 | 量子位,论文已入选CVPR2025。归一化长期以来一直被认为是必不可少的,在现代神经网络中无处不在。但团队认为可以换用一种非常简单的技术,他们提出DyT,直接替代Layer Norm或RMSNorm,性能达到或超过标准Transformer。从视觉的ViT/MAE,到语言模型的LLaMA,再到语音、DNA系列等模态都可以用,完整代码库已开源。网友评价说,只要元素级运算就能实现和归一化一样的效果,这对于效率优化来说简直是免费的午餐。

2025-03-25 00:56:14 599

原创 游戏设计提示词 - RPG游戏剧情架构师

原创 猫叔的AI2025年03月01日 19:18福建工具简介RPG游戏剧情架构师是一款专为游戏开发者、剧情设计师和创意爱好者打造的高级提示词工具。它能根据您提供的游戏框架、世界观设定和角色清单,快速生成专业级别的游戏剧情架构,包括主线故事脉络、角色成长轨迹和关键剧情转折点。无论您是行业专业人士还是独立游戏开发者,这款工具都能帮助您克服剧情设计中的瓶颈,提供富有深度、能引起玩家共鸣的故事结构,为您的RPG游戏注入灵魂。适用场景工具优势使用方法。

2025-03-25 00:33:12 664

原创 AI辅助阅读的第一性原理

AI辅助阅读第一性原理。

2025-03-25 00:32:52 301

原创 Tokenize Image as a Set集合

本文提出了一种全新的图像生成范式,基于集合的Token化和分布建模。与传统方法通过统一压缩比将图像序列化为固定位置的潜在编码不同,作者引入了无序令牌集合的表示方式。该方式能够根据区域语义的复杂性动态分配编码容量。TokenSet方法提升了全局上下文聚合能力,同时增强了对局部扰动的鲁棒性。为了应对离散集合建模的关键挑战,作者设计了一种双重转换机制。这种机制通过双射映射将集合转换为具有求和约束的固定长度整数序列。

2025-03-24 21:28:57 615

原创 读书笔记之《ChatGPT原理与架构》

大模型领域技术专家和布道者,作为两项科技部国家重点研发子课题的负责人,与成都数之联等多家企业合作推动人工智能在司法领域的落地,带领团队开发了JusticeGPT司法大模型,不同于其他的以提升司法领域知识问答能力为核心的司法大模型,该大模型致力于提升司法文献检索增强生成以及司法文档的多跳信息聚合能力,并通过特定的多任务表征与控制指令生成框架重构司法信息化系统的业务中台,实现司法业务编排以及工作流自动化。介绍ChatGPT及同类大模型的发展历程,包括技术演化路径(如从统计模型到神经语言模型、预训练模型等)。

2025-03-24 21:25:30 606

原创 VC开始抢大学生

当参与过《黑神话:悟空》的前期制作、却被问到致谢信中为什么没有团队名字时,伏羲科技创始人韩普宇平静地回答:“今天站在这个舞台上,我更想带上那群人——那群可能没有机会出现在致谢名单里,无法以一个又一个名字表现出对中华文化遗产贡献的人,我和他们站在一起,把这个故事讲给更多的人听。在一众高学历中,22岁的查子涵是少见的大专学生,高考失利,他却在几年专业学习里找到了一个行业痛点:列车检修群体的困境,并以此为灵感做出了AR检修眼镜,打破学历偏见,高喊出那句让全场沸腾的话:“如果我可以,那你们也一定可以”。

2025-03-24 17:44:22 802

原创 氛围编程师崛起!年薪87万一天15小时,Karpathy用400行AI代码点燃硅谷

2025年03月24日 16:15山西Vibe Coding(氛围编程),如今成为硅谷最新流行语。首次提出这一概念的AI大神Karpathy,再度分享了自己的编程新姿势——用Swift编写首个完整卡路里追踪的iOS应用。令人惊讶的是,他完全没有Swift编程经验,也没有翻阅任何文档。通过与ChatGPT的多轮对话,Karpathy仅用1小时完成整个开发过程,并成功部署到手机上。

2025-03-24 17:03:52 545

原创 PH日榜】Sider 5.0:AI深度研究神器,几分钟生成专家级报告,构建专属知识库!

最热类别:人工智能,生产力工具,设计工具,开发者工具,营销工具。

2025-03-24 15:12:00 1017

原创 华人占领科技圈顶流,印度裔成为明日黄花了吗?

在我们看来,这场领导力迭代绝非零和游戏,在苏姿丰与黄仁勋的发布会演讲中,频繁出现“生态系统”、“全球协作”等关键词;而纳德拉近期拜访台积电总部时,特别强调“硬件与软件的协同进化”。这些信号预示着硅谷可能进入新的竞合阶段,那就是华人提供技术突破的“尖刀”,印度裔打造商业落地的“盾构”,二者在AI与计算的新战场形成互补。而更深远的启示在于文明对话层面,当黄仁勋用《道德经》的“大巧若拙”诠释芯片设计,当纳德拉用《薄伽梵歌》的“非执着”哲学。

2025-03-24 14:37:34 1039

原创 垂直类AI Agent智能体开发指南

原创 张伟的钱包 DATA数据社区 2025年03月18日 08:01 美国随着大模型的不断发展与普及,很多人已经明显体会到,大模型LLM在简单的办公场景应用已经非常成熟,但在一些复杂的业务场景,却很难落地应用。要想实现这一目标,需要很多专业的技术支持。由此,催生了大量AI Agent的需求,但是很多人对Agent的理解依旧停留在过去,实际上技术生态的不断发展完善,已经进入到了新的形态。随着Deepseek-R1的开源,使得很多传统公司有机会自己部署大模型,近距离使用高性能AI后,改变了很多人的观念。另外随

2025-03-24 14:28:11 1035

原创 奔驰引入人形机器人,释放AI机器人产业信号

这场合作不只是一个案例,更是多个产业趋势的交汇点:技术层面:AI 与机器人融合的技术路径日益清晰;应用层面:制造业、物流业等场景率先开放试点窗口;

2025-03-24 14:01:03 145

原创 IBM放出『PDF灭霸』:2.56亿参数屠榜文档AI

为了保留 SmolVLM 的原始 DocVQA 能力,对 Docmatix 数据集中的 130 万文档应用了与 DocLayNet-PT 相同的弱标注策略,并引入了将多页文档转换为 DocTags 的指令。SmolDocling 在多种文档类型(包括商业文件、学术论文、技术报告、专利和表单等)中表现出色,能够正确复现代码列表、表格、公式、图表、列表等元素。DocTags 使用 XML 风格的标记来封装基本元素的文本内容,并定义了如文本、标题、脚注、公式、列表项等文档块类型。

2025-03-24 13:57:14 1054

原创 ​【万字经验贴】零基础跨考清华计算机400+

皮皮灰 灰灰考研 2024年10月10日 13:25 广西未经许可,不可转载,版权所有,侵权必究如需转载,请先关注我的公众号“启明笔记”与我取得联系零基础跨考清华计算机400+经验贴大家好,我是启明,本科就读于某985大学,在去年的考研中,我有幸以初试400多分排名极为靠前的成绩,被清华大学拟录取。在这篇文章中,我主要通过讲解考研应该如何备考的这个问题,去阐述如何高效学习新知识,以及如何用尽可能短的准备时间在考试中取得高分的方法论问题。值得注意的是,虽然我是借助考研这个载体来阐述我的思想,但是这些方法论

2025-03-24 11:58:38 925

原创 字节 DAPO 技术报告有感!大模型 RL 细节为王

• sft流程搬到online-replay-buffer采样流程中,基本上就能做好online-rl(稳定的online环境+鲁棒的rl方法);• token-level-loss在ga层面实现也重要,毕竟,在rl训练时,梯度累加都开的比较大,一种规避方式是一次采样多次参数更新即更offpolicy一些;

2025-03-24 11:43:38 658

原创 漫画:大模型“强控”具身智能机器人?

为了能让这个模型扩展,我们在扩散模型去噪网络架构上做了相当多的工作:包括选择合适的normalization方法,选择合适的条件注入方式以及提升模型对非线性的适应能力。这些工作尽管比较工程,但都是扩展模型必不可缺的,我们的消融实验表明缺少了任意一项技术,模型的扩展性都会失败。我推测,不同的模型有各自适用的任务。2. 自回归需逐个生成词元,受限于端侧硬件(显卡带宽小),会导致模型推理速度较慢,而具身对控制频率有较高要求(一般操作任务,至少需要10Hz推理频率,而100ms对于VLM或者VLA来说,太短了)。

2025-03-24 11:41:42 662

原创 过程奖励模型PRM的定义和特点;过程奖励模型prm和orm结果奖励模型的区别和优劣是什么

例如,PRM可以作为密集奖励信号,用于强化学习中的策略微调[5][23]。然而,ORM也存在一些局限性,例如奖励信号过于粗粒度,无法有效评估中间步骤的贡献,容易导致模型在推理过程中忽略潜在的错误路径[89][6][93]。:PRM特别适用于需要多步推理的任务,如数学问题解决、代码生成等,通过评估每一步的有效性,帮助模型生成更高质量的解决方案[7][14][18]。PRM通过细粒度的逐步监督和即时反馈机制,在复杂任务中显著提升了模型的推理能力和可靠性,但其标注成本和泛化能力仍是需要克服的挑战。

2025-03-24 11:36:32 1110

原创 中科院分区2025出炉,计算机各小类分区

COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS 计算机:跨学科应用。COMPUTER SCIENCE, INTERDISCIPLINARY APPLICATIONS 计算机:跨学科应用。COMPUTER SCIENCE, HARDWARE & ARCHITECTURE 计算机:硬件。COMPUTER SCIENCE, THEORY & METHODS 计算机:理论方法。2025年03月21日 18:23。

2025-03-24 11:28:55 483

原创 学术志重磅新书,帮你极速上手DeepSeek,高效做事不内耗!

DeepSeek 为用户提供了多元化的使用方式,涵盖网页版、APP版,还支持众多平台通过 API 接入其强大功能,本书结合实际场景提供可操作的指导,带领读者一一上手。保姆级教程+场景化案例+全栈式指南,哪怕你是科技小白也能一看就懂,一学就会,谁用谁香!该模型从6个关键要素入手,进行全方位、精细化的筹划设计,旨在深度挖掘问题本质,有效解决复杂难题,为用户提供精准、高效的解决方案。,面对复杂问题时像大树分杈,同时探索多条推理路径,各分支代表不同思考方向,模型评估筛选,留下最优深入探索,找到最合理的答案。

2025-03-24 10:44:31 377

原创 刘强东:不应用所学知识、技术算法来压榨最底层的兄弟们;李开复:中国大模型未来大概率只剩下DeepSeek、阿里巴巴、字节跳动三家

此次买断计划的待遇相当优厚。例如,一位55岁的团队负责人,月薪约9000欧元(现汇率约合70674元人民币),在公司工作了30年,其买断金可高达50万欧元(现汇率约合392.6万元人民币),这无疑是一份相当可观的提前退休金。据财联社消息,在华为近日的中国合作伙伴大会 2025 上,华为公司常务董事汪涛表示,当前 AI 推理迎来爆发式增长,中国生成式 AI 日活用户已近 3 亿,月活用户超 1.2 亿。此次买断计划的推出,是因为根据奔驰此前达成的协议,现有的行政人员在2034年之前受到保护,不会被裁员。

2025-03-24 10:32:49 379

原创 [比赛]第一届具身人工智能合作智能研讨会

通过车对车 (V2V) 和车对基础设施 (V2I) 等车对万物 (V2X) 交互,自动驾驶汽车可以提高其感知和安全能力,超越单车自主性的局限性,为广泛采用铺平道路。本次研讨会是对现有专注于自动驾驶和机器人技术中的个人智能的研讨会的补充,引入了一个全新的视角。:2024 年 7 月 25 日(太平洋标准时间)2024 年 8 月 10 日(太平洋标准时间):2024 年 8 月 15 日(太平洋标准时间)2024 年 8 月 22 日(太平洋标准时间)本次研讨会的重点是多智能体自主系统中的协作智能。

2025-03-24 09:59:07 305

原创 [比赛]第二届 MEIS 研讨会@CVPR2025多智能体具身智能系统迎接生成式人工智能时代:机遇、挑战与未来

此外,无人机和移动机器人之间的地空协作在诸如大规模测绘和联合搜救等领域显示出巨大的潜力。本次研讨会将探讨生成式人工智能时代多智能体具身智能系统的机遇、挑战和未来方向。然而,在复杂而动态的环境中实现完全自主仍然是单个智能体面临的巨大挑战。合作智能提供了一种变革性方法,允许智能体与基础设施协作和交互,以更有效地处理各种任务。1) 在自动驾驶领域,数据集和突破性算法的可用性激发了人们对合作自动驾驶的研究兴趣。2) 在机器人领域,多智能体系统的发展正在彻底改变对未知环境的探索。田纳西州纳什维尔音乐城中心。

2025-03-24 09:55:34 309

原创 万字长文总结多模态大模型后训练

在多模态大型语言模型(MLLM)的研究中,对齐数据集是关键组成部分。由于多模态数据集的构建涉及到大量的数据来源、生成方法和注释技术,研究者们对不同构建方法进行了分类。这些数据集大致可以分为两类:引入外部知识的数据集和依赖自我标注的数据集。通过这些分类,研究者可以更清晰地了解不同数据集的特点,进而为多模态系统的优化提供支持。我们对现有MLLM对齐数据集进行了全面的分类与分析,详细介绍了不同构建方法的优缺点以及应用场景。1.引入外部知识的数据集。

2025-03-24 09:41:57 775

原创 吴恩达:「放弃编程」将是史上最糟糕的职业忠告!

我之前写过,我看到精通技术的人协调AI工具,正在向10倍专业人士迈进——这些人在他们领域的影响力是普通人的10倍。在过去的几十年里,随着编程从汇编语言转向像C这样的更高级语言,从桌面转向云端,从原始文本编辑器转向IDE再到AI辅助编程(有时甚至几乎不需要查看生成的代码,一些程序员最近开始称之为"气氛编程"),每一步都让编程变得更加容易。同样,科学家、分析师、市场营销人员、招聘人员和各种各样的专业人士,如果通过编程知识理解软件语言,就能更精确地告诉LLM或AI赋能的IDE他们想要什么,并获得更好的结果。

2025-03-24 09:27:52 243

原创 Claude think ≠ extended thinking,傻傻分不清?官方教程来了!

通过"think"工具,我们给予Claude添加额外思考步骤的能力——包括其自己的专属空间——作为获得最终答案过程的一部分。虽然听起来与延伸思考类似,但它是一个不同的概念。延伸思考是关于Claude在开始生成回应前所做的一切。通过延伸思考,Claude在采取行动前深入考虑并迭代其计划。"think"工具是为了让Claude在开始生成回应后,添加一个步骤来停下来思考它是否拥有所有需要的信息来继续前进。这在执行长链工具调用或与用户进行长时多步骤对话时特别有用。

2025-03-23 23:56:18 945

原创 DeepSeek R2 在ARC-AGI 中得分90%!?这可能只是一个谣言!

虽然极可能是谣言,但今天也就顺便来说说这个ARC-AGI——它是什么,以及为何它会如此重要?为什么一个小小谣言能带来如何大的传播量?ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)是由François Chollet(Keras创建者)开发的基准测试,旨在测量AI在面对全新问题时的适应能力和推理能力。

2025-03-23 23:45:33 1082

原创 深度|外媒:马云幕后操盘阿里AI转型,豪掷3800亿布局AI基建,百人团队打磨通义模型,押注AI应用将颠覆抖音地位

2023年6月,张勇曾表示,“展望未来,我将致力于强化阿里云智能集团的市场领导地位,让不同规模和行业的公司在持续数字化转型时,更低门槛获得云计算和人工智能资源。总部同样位于杭州的 DeepSeek,凭借其顶级的推理模型在全球引发震动,尽管该公司拥有的芯片数量远少于美国的大型竞争对手。2015年上任的首席执行官张勇提出的"新零售"战略,涉及对实体业务的大规模投资,这一计划与亚马逊的类似举措相呼应——后者在2017年以137亿美元收购了WholeFoods(美国连锁超市)。正是这一刻,变革的种子悄然播下。

2025-03-23 23:44:36 742

原创 打王者荣耀,发NeurIPS!Hokoff: Real Game Dataset from Honor of Kings

2025年03月17日 18:15上海论文地址:https://arxiv.org/pdf/2408.10556。

2025-03-21 10:04:33 939 1

原创 浅谈VC-PPO 与 DAPO

为了通过规则提供准确的奖励信号,并最小化公式解析器引入的错误,我们受到AIME的启发,选择并将答案转换为易于解析的整数。相反,对于低概率的 token,实现概率的显著增加要困难得多。然后既要 Advantage 不衰减太快,又想要减小 Advantage 的方差,这篇用一个简单方法,将 Actor 的 lambda 设为 0.95,而 critic 的 lambda 设为 1。这个实验有点恐怖的地方是,如果以 eval AIME 0.3 为目标,看不出来这二者之间的区别,提示我们观察熵的数值是重要的。

2025-03-21 09:55:50 1024

原创 解锁的搜索与推理新模式:DeepSearch与DeepResearch的区别

DeepSearch 可以理解为一种“高级的网页搜索代理传统的网页搜索代理通常只是用已有的搜索工具来收集信息,然后生成答案,它基本上只进行了一次搜索。而 DeepSearch 则在搜索过程中加入了“推理”这一环节。简而言之,

2025-03-21 09:52:37 656

原创 RAG经验分享:如何选对Embedding模型?

MTEB :MTEB 是一个包含广泛文本嵌入(Text Embedding)的基准测试,它提供了多种语言的数十个数据集,用于各种 NLP 任务,例如文本分类、聚类、检索和文本相似性。MTEB 提供了一个公共排行榜,允许研究人员提交他们的结果并跟踪他们的进展。MTEB 还提供了一个简单的 API,允许研究人员轻松地将他们的模型与基准测试进行比较。MTEB 包含以下 8 种任务类型:Bitext Mining :寻找两种语言句子集之间的最佳匹配。

2025-03-21 00:29:19 1034

原创 全线爆发!刚刚,“国家队“出手!

此外,雷赛智能发布灵巧手、均普机器人研究院与禾川机器人官宣战略合作、五洲新春与新剑传动签署战略合作协议,供应链零部件的性能提升和快速降本也是关注的重点,尤其是灵巧手环节,作为重要的任务执行部件,其下游应用广泛,建议关注产业链相关标的。到执行的全流程智能化,具备处理多场景复杂任务的泛化能力,首次实现了单个软件系统在机械臂、轮式机器人、人形机器人等多构型本体上的兼容,能够适应多样化的应用场景和任务,为具身智能机器人提供强大的感知、决策与执行能力。高伟电子涨超6%,地平线机器人涨超4%,优必选涨超3%。

2025-03-21 00:18:39 844

原创 与小米机器人并肩的日子

铁蛋二代CyberDog 2(即“铁蛋 2”)最终在 2023 年小米秋季发布会上登台亮相,再次广受好评。与铁蛋 1 不同的是,铁蛋 2 量产了两千台,同时面向专业开发者与普通消费者开售。据了解,小米铁蛋 2 前期主要是与高校合作,走科研路线,后面就放开了、任意用户都可以买。“小米二代狗的质量是非常好的,即使放到今天也是顶流。

2025-03-20 10:14:55 805

原创 ICLR高分论文|穷鬼版RLHF:左脚踩右脚实现自我升华

核心联系在比喻中,"选手自己尝两道菜并打分"对应模型根据自身输出概率比较两段回答孰优。"专业评委"对应少量人工偏好数据,提供最初的对齐参照标准。"口味学习 + 自我修正"对应论文提出的对模型进行"初始化对齐+自我修正噪声"的训练策略。为什么这很重要以往如果没有足够的人工标注或外部奖励模型,很多对齐方法就无从谈起。这里通过"直接偏好判断",我们把对齐能力内置在同一个模型里,让它自己给自己"打分"。虽然会有噪声,但自我修正机制能减小影响,从而在小规模标注的情况下也能做出不错的对齐。最核心的数学原理。

2025-03-20 10:14:32 973

原创 ICLR高分论文|穷鬼版RLHF:左脚踩右脚实现自我升华

核心联系在比喻中,"选手自己尝两道菜并打分"对应模型根据自身输出概率比较两段回答孰优。"专业评委"对应少量人工偏好数据,提供最初的对齐参照标准。"口味学习 + 自我修正"对应论文提出的对模型进行"初始化对齐+自我修正噪声"的训练策略。为什么这很重要以往如果没有足够的人工标注或外部奖励模型,很多对齐方法就无从谈起。这里通过"直接偏好判断",我们把对齐能力内置在同一个模型里,让它自己给自己"打分"。虽然会有噪声,但自我修正机制能减小影响,从而在小规模标注的情况下也能做出不错的对齐。最核心的数学原理。

2025-03-20 10:11:14 675

原创 ICLR高分论文| CoT过时了,使用CoA!

核心创新:是一个能自动“检索”+“推理”+“冲突验证”的统一框架,同时注重性能和多数据源信息的结合。最大难点:如何在执行时管理动作链、度量答案的可信度(MRFS),以及决定什么时候不必检索。概念关系:以CoA为中心展开,其余关键机制都是为了实现或完善CoA的“多步推理+多源融合+自动判断需求”而服务的。通过侦探团队破案的类比,可以帮助我们理解CoA为什么要分成多个子问题、为什么要进行外部数据检索、以及如何通过MRFS来修正生成答案。公式(1)~(5)正对应“侦探校对供词与证据吻合度”的定量过程;

2025-03-20 10:07:59 676

原创 波士顿动力Atlas逆天进化!这次用上了「强化学习+动捕」,人类动作直接复刻,背后还有个AI机构

深入探讨这一至关重要的区别,审视当前人形机器人技术的现状,并找出实验室演示与实际应用之间的差距。分析阻碍人形机器人广泛普及的关键挑战,包括在非结构化环境中保持可靠性和稳定性、成本效益,以及对具备真正适应性和问题解决能力的高级人工智能的迫切需求。一个关键的问题始终摆在我们面前:我们看到的进步,究竟是 切实可行、可以真正落地应用的人形机器人解决方案 的进步,还是仅仅停留在 孤立的实验室研究成果 展示层面?最牛的是,这些在模拟器里训练好的“技能”,可以直接。波士顿动力官方发推表示,Atlas这次展示的是用。

2025-03-20 09:20:45 391

原创 CoT和ToT是什么,有什么区别和优劣

CoT(链式思维)定义:CoT是一种通过显式生成中间推理步骤(如数学推导、逻辑分析)来引导语言模型完成复杂任务的提示技术。其核心是“分步思考”,例如在回答数学问题时,模型会先写出公式、再代入数值、最后计算结果。实现方式:通常通过添加提示语(如“Let's think step-by-step”)或提供少量分步演示(few-shot prompting)激活模型的推理能力。理论支持。

2025-03-19 15:28:59 873

原创 过程奖励模型(PRM)之外,主要的奖励模型类型及相关变体包括:

奖励模型的发展趋势是从粗粒度(ORM)向细粒度(PRM、标记级)演进,同时结合隐式学习(Implicit PRM)、多模态整合(Hybrid PRM)和正则化技术(ER-PRM)以提升效果。未来方向包括自动化标注、跨领域泛化及安全性与性能的平衡。

2025-03-19 15:26:34 444

原创 大模型中的 Reward Model:ORM、PRM、PPO、DPO对于一般分类、

DPO(Direct Preference Optimization)模仿了 PPO 的方式,同样训练 Reward Model,大模型生成多个结果后,使用 Reward Model 判断优劣,然后好的作为训练集,以SFT 的方式训练。,大模型生成多个结果后,经过 Reward Model 判断,通过强化学习的方式来使得大模型偏向更好的答案,远离更差的答案。),但同时要求 Reward Model 能够正确的判别每一步的结果,显然对 Reward Model 的要求更高。,更重要的是,判别结果可以某种。

2025-03-19 15:25:25 428

原创 Manus和openai都在GAIA上瞎搞....

现在比较好的leaderboard都是采用类似Kaggle 比赛的形式,可以交模型、代码、api,测试集数据不可见,所以结果可信度很高。先回顾下,GAIA是一个评测agent能力的榜单,比如给你一个excel表,让你统计一下三年二班的总分最高分的同学对应的数学分。事情的起因是我发现Manus和openai的Deep Reasearch都报告了在GAIA上有很高的分,我翻来翻去也没找到。大家都老老实实在test上提交吧。但问题就出在GAIA这个,验证集的数据是可以直接下发在本地的,相当于人手一个题目和答案。

2025-03-19 15:16:51 377

搜索引擎概览 searchengine

搜索引擎概览 searchengine

2024-11-19

11个代码生成相关的论文,20241022更新版本-持续更新,包含代码搜索、代码搜索、代码模型survey、代码评论评估、代码评

find . -mindepth 2 -maxdepth 2 -type f -name "*.pdf" | awk -F/ '{print $(NF-1)}' | sort | uniq -c 2 代码或bug分类 1 代码搜索 1 代码生成 1 代码模型survey 1 代码评论评估 5 代码评估与提示

2024-10-22

10篇代码生成的论文,包括代码评估、代码搜索、代码生成、survey、代码或bug分类

题目 类型 分区 摘要 精读链接 Comparing large language models and humanprogrammers for generating programming code 代码评估 arxiv 评估七种LLMs在生成编程代码方面的性能,探讨不同提示策略对LLMs编码性能的影响,直接比较LLMs与人类程序员的编程能力,评估LLMs在不同编程语言之间生成和翻译代码的能力,以及考察LLMs的计算效率和从过去错误中学习的能力。 A Comparison of the Effectiveness of ChatGPT andCo-Pilot for Generating Quality Python Code 代码评估 会议 包括评估ChatGPT和Copilot在解决LeetCode编程问题上的有效性,探讨ChatGPT在接收到反馈后纠正代码的能力,以及其在提高代码质量和性能方面的潜力。 Program Code Generation with Generative AIs 代码评估 MDPI水刊-Algorithms非SCI 比较了人类生成的代码

2024-10-21

Multimodal Representation for Neural Code Search

—Semantic code search is about finding semantically relevant code snippets for a given natural language query. In the state-of-the-art approaches, the semantic similarity between code and query is quantified as the distance of their representation in the shared vector space. In this paper, to improve the vector space, we introduce tree-serialization methods on a simplified form of AST and build the multimodal representation for the code data. We conduct extensive experiments using a single corpu

2024-10-21

[MDPI水刊Algorithm非SCI]Program Code Generation with Generative AIs

[MDPI水刊-非SCI]Program Code Generation with Generative AIs

2024-10-21

Evolving code with a large language model

Evolving code with a large language model

2024-10-19

avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.zip

avx2_tensorflow1.9.0_win,avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.whl

2020-04-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除