LLM for code
文章平均质量分 91
UnknownBody_2
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2025_NIPS_Teaching Language Models to Reason with Tools
大型推理模型(LRMs)如OpenAI-o1在自然语言推理方面展现出令人印象深刻的能力。然而,这些模型在处理复杂数学运算时常常表现出低效或不准确的问题。尽管整合代码解释器(CIs)等计算工具提供了一种有前景的解决方案,但它也带来了一个关键挑战:模型内部的概率推理与代码解释器提供的外部确定性知识之间存在冲突,这往往导致模型陷入无效的深思。为克服这一问题,我们提出了CoRT(代码优化推理训练),这是一个旨在教会LRMs有效利用代码解释器的后训练框架。原创 2026-02-06 09:30:00 · 145 阅读 · 0 评论 -
2025_NIPS_WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scrat
本文提出了,首个用于评估基于LLM的智能体从零生成交互式功能网站能力的基准测试,同时构建了配套训练集并优化出专用模型WebGen-LM。数据集构建:WebGen-Bench含101条网站生成指令(覆盖3大类13个子类)和647个功能测试用例,WebGen-Instruct含6667条去污染训练指令。评估体系:通过WebVoyager UI智能体自动化测试功能实现度,用GPT-4o评分网站美观度(1-5分)。原创 2026-01-26 11:15:00 · 45 阅读 · 0 评论 -
2025_NIPS_Let’s Revise Step-by-Step: A Unified Local Search Framework for Code Generation with LLMs
大型语言模型(LLMs)结合推理时缩放技术在代码生成领域展现出潜力,但面临显著的效率和可扩展性挑战。构造性树搜索方法存在树规模快速增长、令牌消耗大以及缺乏随时返回结果特性等问题;相比之下,改进型方法虽性能更优,却常受困于无指导性的奖励信号和低效的搜索策略。本文提出ReLoc,一种统一的局部搜索框架,可有效执行逐步代码修订。原创 2026-01-20 10:15:00 · 34 阅读 · 0 评论 -
FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation
在仓库级代码库中实现新功能是代码生成模型的关键应用场景,但现有基准测试缺乏针对该能力的专用评估框架。为填补这一空白,我们提出 FEA-Bench——一个用于评估大语言模型(LLM)在代码仓库中执行增量开发能力的基准测试。我们从 83 个 GitHub 仓库收集拉取请求(Pull Request),通过基于规则和意图的过滤,构建聚焦新功能开发的任务实例。每个包含代码变更的任务实例均配套相关单元测试文件,确保解决方案可验证。原创 2025-12-04 09:15:00 · 208 阅读 · 0 评论
分享