UnknownBody-CSDN博客

原创 Augmented Body Communicator: Enhancing daily body expression for people with upper limb limitations

上肢运动受限人群在社交互动中面临诸多挑战。当前机械臂的应用主要集中于功能性任务，但在提升用户身体语言能力方面仍有广阔探索空间。本文提出一种结合机械臂与大语言模型（LLM）的增强身体沟通系统（ABC）。通过“运动记忆”功能，残障用户及其辅助者可协作创建机械臂动作，LLM系统则根据互动中的上下文线索推荐最合适的动作。该系统对6名上肢运动障碍患者进行了深入测试，结果表明其显著提升了用户的自我表达能力。基于研究结果，本文为支持残障人士身体语言能力和功能性任务的机械臂设计提供了建议。

2025-05-26 09:30:00 108

原创 Free and Fair Hardware: A Pathway to Copyright Infringement-Free Verilog Generation using LLMs

摘要大语言模型（LLM）在硬件设计任务（如生成功能性Verilog代码）中的能力局限，促使研究人员利用开源存储库中精心整理的硬件数据集进行各种微调优化。然而，这些数据集规模有限，且对重用许可的检查极少，导致微调后的LLM存在潜在的版权侵权风险。因此，我们提出了一个评估基准，用于估计经过Verilog训练的LLM生成受版权保护代码的风险。为了最小化这种风险，我们提供了一个开源Verilog数据集FreeSet，其中包含超过22万个文件，以及用于自动管理数据集的框架，以确保Verilog数据的合理使用。

2025-05-26 08:30:00 77

原创 A SCALING LAW FOR TOKEN EFFICIENCY IN LLM FINE-TUNING UNDER FIXED COMPUTE BUDGETS

翻译我们提出了一种在固定计算预算下微调大型语言模型（LLMs）的缩放定律，该定律明确考虑了数据构成。传统方法仅通过总标记数衡量训练数据，但示例数量及其平均标记长度（我们称之为数据集体积）对模型性能起决定性作用。AccuracyAVβMγEAccuracyAVβMγE其中体积VN⋅LVN⋅L（示例数×平均标记长度），M为模型大小，参数通过既定流程调整（Pareja等人，2024）。

2025-05-25 09:30:00 99

原创 Harnessing LLMs Explanations to Boost Surrogate Models in Tabular Data Classification

大型语言模型（LLMs）在解决复杂任务方面表现出卓越能力，使其成为增强表格学习的有前途工具。然而，现有基于LLM的方法存在资源需求高、示例选择不佳和可解释性有限等问题，严重阻碍了其预测性能和实际应用。为解决这些问题，我们提出了一种新的表格预测上下文学习框架。核心思想是利用LLM生成的解释来指导一个更小、可本地部署的替代语言模型（SLM）进行可解释的表格预测。具体而言，我们的框架主要包括三个阶段：（i）事后解释生成，利用LLM为候选示例中的问答对生成解释，揭示答案背后的推理过程；

2025-05-25 08:30:00 65

原创 What Is Next for LLMs? Next-Generation AI Computing Hardware Using Photonic Chips

本文聚焦于光子芯片在下一代人工智能计算硬件中的应用，探讨其如何应对大型语言模型（LLMs）带来的计算与能效挑战，主要内容涵盖以下方面：光子神经网络组件：二维材料集成：神经形态与自旋电子学：大型语言模型（LLMs）正迅速突破当代计算硬件的极限。例如，训练GPT-3估计消耗了约1300 MWh的电力，而预测表明未来的模型可能需要城市级（千兆瓦）的电力预算。这些需求促使人们探索超越传统冯·诺依曼架构的计算范式。本综述调查了为下一代生成式人工智能计算优化的新兴光子硬件。我们讨论了集成光子神经网络架构（如马赫-曾德尔

2025-05-24 09:30:00 97

原创 LLMs Outperform Experts on Challenging Biology Benchmarks

本研究系统评估了2022年11月至2025年4月期间发布的27个前沿大型语言模型（LLMs）在8个生物学基准测试（涵盖分子生物学、遗传学、克隆、病毒学和生物安全等领域）上的表现。模型性能显著提升：在病毒学能力测试（VCT-Text）的纯文本子集上，顶级模型的性能在研究期间提升了4倍以上，目前顶级模型的表现是病毒学专家的两倍。在其他挑战性基准测试（如LAB-Bench克隆场景、GPQA和WMDP的生物学子集）中，多个模型达到或超过了专家水平。提示策略的影响有限。

2025-05-24 08:30:00 89

原创 A Large Language Model-Enhanced Q-learning for Capacitated Vehicle Routing Problem with Time Windows

带时间窗的容量限制车辆路径问题（CVRPTW）是经典的NP难组合优化问题，广泛应用于物流配送和运输管理。其复杂性源于车辆容量和时间窗约束，给传统方法带来巨大挑战。大语言模型（LLMs）的发展为寻找CVRPTW的近似解提供了新可能。本文提出一种新颖的LLM增强Q学习框架，以解决具有实时紧急约束的CVRPTW。我们的方案引入自适应两阶段训练机制，从LLM引导的探索阶段过渡到Q网络的自主优化阶段。为确保可靠性，我们基于思维链（CoT）为LLMs设计了三层自校正机制：语法验证、语义验证和物理约束执行。

2025-05-23 11:07:09 19

原创 LLMS GET LOST IN MULTI-TURN CONVERSATION

大型语言模型（LLMs）是对话接口。因此，LLMs不仅能在用户完全明确当前任务时提供帮助，还能通过多轮对话交流帮助用户定义、探索和完善需求。尽管对LLM对话日志的分析表明，用户指令中的不完整描述频繁出现，但LLM评估主要集中在单轮、完全明确的指令场景。在这项工作中，我们进行了大规模模拟实验，比较LLMs在单轮和多轮场景中的性能。实验证实，所有测试的顶尖开源和闭源LLMs在多轮对话中的表现显著低于单轮，六个生成任务的平均下降幅度为39%。

2025-05-23 11:06:30 129

原创 Multi-Agent Systems for Robotic Autonomy with LLMs

Abstract自大型语言模型（LLMs）问世以来，基于此类模型的研究一直备受学术界关注并产生了重要影响，尤其是在人工智能和机器人领域。本文提出了一种基于LLMs的多智能体框架，构建了一个集成系统，用于机器人任务分析、机械设计和路径生成。该框架包括三个核心智能体：任务分析器、机器人设计器和强化学习设计器。输出采用多模态结果格式，如代码文件或技术报告，以增强可读性和可用性。为了对比评估泛化能力，我们使用来自GPT和DeepSeek的模型进行了实验。

2025-05-22 17:52:41 117

原创 GesPrompt: Leveraging Co-Speech Gestures to Augment LLM-Based Interaction in Virtual Reality

本文提出了GesPrompt系统，这是一种结合语音和协同手势的多模态XR交互界面，旨在解决用户在虚拟现实（VR）环境中向基于大语言模型（LLM）的协同助手描述3D环境时的挑战。传统的纯文本或语音输入难以准确传达复杂的时空信息，而GesPrompt通过提取协同手势中的时空参考信息，减少了对精确文本提示的依赖，降低了用户的认知负荷。基于大语言模型（LLM）的协同助手在扩展现实（XR）应用中展现出巨大潜力。然而，用户在向协同助手描述3D环境时面临挑战，仅通过文本或语音传达时空信息的复杂性较高。

2025-05-22 17:52:11 89

原创 Sparse Attention Remapping with Clustering for Efficient LLM Decoding on PIM

基于Transformer的模型是现代机器学习的基础，但其执行过程（尤其是大语言模型（LLM）的自回归解码阶段）因频繁的内存访问和不断增长的键值（KV）缓存，给内存系统带来了巨大压力，形成内存带宽瓶颈，且随着上下文长度的增加，这一问题愈发严重。处理内存（PIM）架构因具备高内部带宽和内存附近的计算并行性，成为颇具前景的解决方案。然而，现有PIM设计主要针对密集注意力优化，难以应对现代KV缓存稀疏技术引入的动态、不规则访问模式，导致工作负载不平衡，降低吞吐量和资源利用率。

2025-05-21 09:30:00 151

原创 Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

本文提出了首个基于统一多模态思维链（CoT）的奖励模型UNIFIEDREWARD-THINK，旨在通过显式长链推理提升多模态奖励模型的可靠性和鲁棒性。冷启动阶段：使用少量图像生成偏好数据蒸馏GPT-4o的推理过程，使模型学习CoT推理的格式和结构。拒绝采样阶段：利用大规模统一多模态偏好数据激发模型在各类视觉任务中的推理能力，保留正确推理样本以强化准确模式。组相对策略优化（GRPO）阶段：对错误预测样本进行基于GRPO的强化微调，推动模型探索多样化推理路径，优化推理准确性。

2025-05-21 08:30:00 907

原创 A Day in Their Shoes: Using LLM-Based Perspective-Taking Interactive Fiction to Reduce Stigma Toward

本文聚焦于运用基于大语言模型（LLM）的交互式小说（IF）框架，来推动视角采择并减少对“脏活”（Dirty Work）的社会污名。研究选取了四类“脏活”职业，分别是清洁工、消防员、警察和护理员，通过实验和访谈，深入探究了该框架在降低职业偏见方面的实际效果、作用机制以及面临的挑战。那些被称作“脏活”的职业，往往面临着根深蒂固的社会污名。这种污名不仅对从事这些职业的工作者的心理健康产生不利影响，还阻碍了职业公平的实现。

2025-05-20 09:30:00 128

原创 Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers

Transformer在众多自然语言处理任务中取得了巨大成功，但其在多步事实推理中仍存在显著不足，尤其是在真实世界知识稀疏的场景下。近期关于“grokking”的研究表明，神经网络一旦检测到潜在逻辑模式，就能从记忆阶段过渡到完全泛化阶段——但这些研究主要基于小规模合成任务。本文首次将grokking扩展到真实世界事实数据，并通过精心设计的合成数据增强现有知识图谱，将推理事实与原子事实的比例ϕr\phi_rϕr提升至触发grokking所需的阈值以上，从而解决数据集稀疏性问题。

2025-05-20 08:30:00 89

原创 From Millions of Tweets to Actionable Insights: Leveraging LLMs for User Profiling

本文提出了一种基于大语言模型（LLM）的社交媒体用户画像方法，旨在解决传统方法依赖大量标注数据、特征不可解释、适应性差等问题。数据过滤：通过半监督语义过滤方法，利用领域知识库（如维基数据）从600万条波斯语政治推文中筛选出170万条政治相关内容，构建数据集PersianPol6M。画像生成抽象式画像：使用LLM生成自然语言摘要，提炼用户观点和趋势。提取式画像：从推文中选取最具代表性的原文，保留用户真实表达。评估框架：通过基于LLM的开卷问答任务，对比画像与完整推文历史的立场检测性能，验证信息保留能力。

2025-05-19 09:30:00 101

原创 ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching

本文提出了一种名为ZEROSEARCH的强化学习框架，旨在解决现有大语言模型（LLMs）在利用真实搜索引擎进行搜索能力训练时面临的两大挑战：文档质量不可控和API成本过高。监督微调构建检索模块：通过轻量级监督微调将LLM转化为检索模块，使其能够根据查询生成相关文档和噪声文档，实现对文档质量的可控模拟。基于课程的训练策略：在强化学习训练过程中，采用逐步降级文档质量的课程式展开策略，使模型在逐渐增加的挑战中提升推理能力。高效可扩展的训练机制。

2025-05-19 08:30:00 93

原创 Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation

本文聚焦于大语言模型（LLMs）的机器遗忘（Machine Unlearning）领域，提出了一种名为Unilogit的自蒸馏方法，旨在解决模型在选择性遗忘敏感信息的同时保持整体性能的挑战，以满足数据隐私法规（如GDPR）的要求。

2025-05-18 10:30:00 75

原创 Towards Understanding Camera Motions in Any Video

因此，我们与一组十几名在相机运动方面具有高技能的计算机视觉研究人员和专业电影摄影师（包括本文的一些作者）合作，通过构建精确的相机运动原语分类法和开发强大且可扩展的标注框架来应对这些挑战，下文将对此进行解释。人类对相机运动的感知。此外，这些方法无法捕捉相机运动的高级语义，例如镜头背后的意图（如跟踪对象或展示场景）或运动发生的上下文（如手持、云台稳定或车载）。另一方面，最近的多模态视觉系统，如GPT-4o和Gemini，通过大规模训练展现出强大的类人感知能力，但其理解相机运动的能力在很大程度上仍未得到测试。

2025-05-18 09:30:00 123

原创 ToolRL: Reward is All Tool Learning Needs

2025-05-18 08:30:00 20

原创 Absolute Zero: Reinforced Self-play Reasoning with Zero Data

本文提出了一种名为的强化学习新范式，旨在解决现有强化学习方法依赖人工标注数据的问题。核心是让模型通过自我博弈（self-play）自主生成任务并解决，无需任何外部数据。核心框架：Absolute Zero推理器（AZR）模型同时担任**任务提议者（proposer）和问题解决者（solver）**双重角色。提议者生成三种类型的编程任务（演绎、归纳、溯因），对应不同推理模式，并通过代码执行器验证任务有效性和答案正确性，提供可验证的奖励信号。

2025-05-17 09:30:00 109

原创 Tina: Tiny Reasoning Models via LoRA

2025-05-17 08:30:00 147

原创 Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

推理是智能的核心，决定了决策、结论推导和跨领域泛化的能力。在人工智能领域，随着系统逐渐在开放、不确定和多模态环境中运行，推理成为实现稳健自适应行为的关键。大型多模态推理模型（LMRMs）通过整合文本、图像、音频、视频等模态，展现出支持复杂推理（如逻辑演绎、因果推断、类比映射和长程思考）的潜力，其核心目标是实现全面感知、精准理解和深度推理。随着研究进展，多模态推理已从模块化、感知驱动的流水线，迅速演进为以语言为中心的统一框架，实现更连贯的跨模态理解。

2025-05-16 09:30:00 96

原创 TTRL: Test-Time Reinforcement Learning

2025-05-16 08:30:00 142

原创 LLM Weekly（2025.05.05-05.11）

🔬 论文与代码库速览。

2025-05-15 09:58:57 268

原创 Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2

我们还进行了几项与语言建模相关的研究。首先，我们展示了我们的模型不仅能够生成辅助构造，还能生成完整的证明，这表明现代语言模型有潜力在不依赖外部工具（如符号引擎）的情况下运行。我们发现，尽管这些模型都在相同的AlphaGeometry数据集上进行训练，但它们学习到的技能略有不同，将它们结合到我们新颖的搜索算法——搜索树共享知识集成（SKEST）中，可以提高整体解决率。AG2集成了一个在更大、更多样化的数据集上训练的更强大的语言模型、一个更快且更通用的符号引擎、扩展的领域语言以及新颖的证明搜索算法。

2025-05-15 08:30:00 118

原创 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length

2025-05-14 09:30:00 115

原创 xVerify: Efficient Answer Verifier for Reasoning Model Evaluations

2025-05-14 08:30:00 100

原创 ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

2025-05-13 09:30:00 496

原创 DeepCritic: Deliberate Critique with Large Language Models

2025-05-13 08:30:00 97

原创 InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

2025-05-12 09:30:00 137

原创 BitNet b1.58 2B4T Technical Report

1比特大语言模型是模型量化的一种极端但前景广阔的形式，其中权重以及可能的激活值被限制为二进制{-1, +1}或三进制{-1, 0, +1}，为效率挑战提供了一个有吸引力的解决方案。虽然先前的工作已经探索了1比特模型，但现有的开源工作通常分为两类：1）应用于预训练全精度模型的训练后量化（PTQ）方法，这可能导致显著的性能下降（Xu等人，2024b；Team，2024）；这项工作的核心贡献在于证明，当进行有效的大规模训练时，原生1比特大语言模型在广泛的任务中可以实现与类似规模的领先开源全精度模型相当的性能。

2025-05-12 08:30:00 151

原创 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

2025-05-11 09:30:00 120

原创 A Survey of Interactive Generative Video

2025-05-11 08:30:00 106

原创 WebThinker: Empowering Large Reasoning Models with Deep Research Capability

2025-05-10 09:30:00 159

原创 Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math

思维链（Chain-of-Thought, CoT）通过训练大语言模型（LLMs）显式生成中间推理步骤，显著增强了其形式推理能力。虽然大语言模型很容易从这些技术中受益，但由于小语言模型（SLMs）的模型容量有限，提升其推理能力仍然具有挑战性。最近，Deepseek-R1（Luo等人，2025年）的研究表明，从大语言模型生成的合成数据中进行蒸馏，可以大幅提升小语言模型的推理能力。然而，具体的建模方法并未公开。

2025-05-10 08:30:00 100

原创 Reinforcement Learning for Reasoning in Large Language Models with One Training Example

2025-05-09 09:30:00 169

原创 LLM Weekly（2025.04.28-05.04）

2025-05-09 08:30:00 89

原创 LLM Weekly（2025.04.21-04.27）

Claude Code 是一个用于智能体编码的命令行工具，通过提供底层的、可定制的模型访问，增强了编码工作流程。尽管 ChatGPT 和 Meta AI 分别拥有 6 亿和 5 亿用户，超过了 Gemini，但谷歌的整合努力扩大了 Gemini 的用户范围。该模型支持多种风格、精确的编辑操作，并且能够将图像进行组合，同时利用其广泛的世界知识和一致的文本渲染能力。这个基于 while 循环构建的简单架构，突显了利用最近在为函数调用和工具使用而训练的大语言模型方面的进展，实现了智能体人工智能开发的简化。

2025-05-08 09:30:00 384

原创 LLM Weekly（2025.04.14-04.20）

这些模型降低了成本，提高了实际应用价值，并弃用了 GPT-4.5，强调了对开发者的效率提升。ReTool 的 320 亿参数模型在数学奥林匹克竞赛基准测试 AIME 上达到了 67% 的准确率，超过了基于文本的强化学习基线，并展示了代码自我修正等涌现行为，推动了复杂数学推理和混合神经符号系统的发展。智能体抽象简化了初始化过程，但可能会掩盖大语言模型对上下文的需求，从而影响可靠性，这强调了需要有框架来促进上下文的清晰性，同时平衡工作流程和智能体的复杂性。这一下载量的激增恰逢其图像生成功能的升级。

2025-05-08 08:30:00 200

原创 Inference-Time Scaling for Generalist Reward Modeling

强化学习（RL）已大规模应用于大语言模型（LLMs）的后训练。最近，通过RL激励LLMs的推理能力表明，合适的学习方法可以实现有效的推理时可扩展性。RL的一个关键挑战是为LLMs在各种领域（超出可验证问题或人工规则）中获得准确的奖励信号。在这项工作中，我们研究如何通过更多的推理计算来改进通用查询的奖励建模（RM），即通用RM的推理时可扩展性，以及如何通过合适的学习方法提高性能 - 计算缩放的有效性。对于RM方法，我们采用点向生成式奖励建模（GRM），以实现对不同输入类型的灵活性和推理时缩放的潜力。

2025-05-07 09:30:00 267

C语言编程实例100题

空空如也