步子哥-CSDN博客

原创代码世界的双人舞：当AI编码器与测试员在无师自通中共同进化

传统的单元测试通常是基于已经写好的“正确代码”来生成的。而“任务派生单元测试”（Task-derived Unit Test）则另辟蹊径，它直接从编程任务的描述中生成。这意味着，AI 不需要先成为一个完美的程序员，才能去评估代码。它只需要读懂题目，就能出题考验别人（或者过去的自己）。然而，单元测试的质量也参差不齐。有的测试就像一个糊涂的考官，出的题目本身就是错的；有的测试虽然没错，但过于简单，像是在做“一加一等于几”的判断题，根本无法揪出代码中隐藏的bug；

2025-06-07 23:55:29 518

原创引导语言的魔法：从简单指令到智能对话的艺术

提示工程是设计高质量输入提示的过程，旨在引导LLMs生成准确、相关且符合预期的输出。它不仅涉及文字的选择，还包括模型配置、结构设计和上下文管理，是一个需要不断迭代的实验过程。

2025-06-06 20:00:00 842

原创智能的秘密地图：为何通用智能体离不开世界模型

在追求通用人工智能的征途中，一个核心问题始终萦绕：智能体是否必须依赖世界模型——对环境的预测性表征——来实现灵活的目标导向行为？本文以通俗易懂的方式，深入探讨了一项突破性研究，揭示了任何能够处理多步骤目标任务的智能体，其策略中必然蕴含了一个世界模型。我们将以类小说的叙述风格，结合幽默的比喻和贴切的例子，带你走进这一科学发现的奇妙世界，揭示世界模型在智能行为中的核心角色，以及它对人工智能安全、能力边界和算法创新的深远影响。

2025-06-05 22:00:00 551

原创追寻真相的智慧：从杂乱信息到精准答案的探秘之旅

AutoRefine宛如一位智慧的炼金术士，将杂乱无章的外部信息提炼为精准的答案。其“搜索-提炼-思考”范式和双重奖励机制，让大型语言模型在复杂问题面前不再“迷茫”。通过在七个问答基准上的卓越表现，AutoRefine证明了其在检索增强推理领域的潜力。未来，随着模型规模的扩展和动态检索的引入，这一框架有望在更广泛的场景中大放异彩，为我们揭示更多知识的奥秘。

2025-06-02 10:28:00 50

原创从未知中进化：测试时强化学习如何重塑语言模型的智慧

TTRL：语言模型在测试时的自进化革命大型语言模型正迎来从依赖监督学习到自主进化的范式转变。测试时强化学习（TTRL）通过创新性地利用无标签测试数据进行自我优化，实现了AI能力的突破性提升。其核心在于采用多数投票机制从模型自身输出中生成奖励信号，驱动参数动态调整。实验证明，TTRL在数学推理等复杂任务中表现惊人：Qwen2.5-Math-7B模型在AIME 2024上的准确率提升211%，平均性能增幅达76%。该方法不仅突破了传统强化学习对标注数据的依赖，更展现出超越初始模型性能上限的潜力，为AI在未知领

2025-05-31 10:21:31 902

原创代码的幕后英雄：揭秘 DSPy 的 ProgramOfThought 依赖之谜

在人工智能的浩瀚星海中，语言模型（LM）的编程框架如同一艘艘探索未知的飞船，而 DSPy（Declarative Self-improving Python）无疑是其中一颗耀眼的明星。它以“编程而非提示”的理念，试图为开发者提供一种更系统化、更模块化的方式来构建 AI 系统。然而，就像任何伟大的探险一样，DSPy 的旅程并非一帆风顺。GitHub 上的一则 issue（#8010）揭示了其 ProgramOfThought 模块在 Windows 环境下面临的技术难题，引发了关于其依赖设计的深刻讨论。

2025-05-28 06:00:00 36

原创图像与语言的交响：揭秘BLIP3-o如何统一视觉理解与生成

统一多模态模型是指在单一架构下同时处理图像理解（例如回答关于图像的问题）和图像生成（根据文字描述生成图像）的模型。这种模型需要在同一个语义空间中处理视觉和语言信息，挑战在于如何平衡两种任务的复杂性。BLIP3-o的创新在于它通过结合自回归模型和扩散模型，构建了一个高效的统一框架。它的核心思想是将图像表示为高层次的语义特征（而非低层次的像素数据），并通过精心设计的训练策略，让模型在理解与生成之间找到平衡。接下来，我们将逐一拆解它的技术亮点。

2025-05-27 06:21:08 923

原创思想的交响：解锁逻辑推理的多元之道

推理模态指的是不同的思维范式，每种范式以独特的方式表达和处理逻辑问题。自然语言用文字叙述推理步骤，代码通过程序化逻辑模拟问题，真值表则通过符号化的真值分配系统地验证逻辑关系。

2025-05-25 22:03:48 912

原创星际导航仪：掌握 uv 的 Python 项目管理魔法

uv 是 Python 项目管理的“星际导航仪”，以 Rust 的光速性能和统一的工作流，简化了初始化、依赖管理、脚本运行和版本切换。

2025-05-23 07:00:00 1134

原创星际工具箱：解锁 Python 宇宙的 uv 奥秘

uv 是一款现代化的 Python 工具，以 Rust 的光速性能和统一的工作流，重新定义了项目管理。它不仅能管理 Python 版本，还能高效处理依赖和虚拟环境，适合 Python-only 的项目。对于需要多语言支持或复杂依赖的数据科学项目，conda 仍是更好的选择；而对于简单版本管理的场景，pyenv 依然可靠。

2025-05-23 06:00:00 1226

原创掌控网络的魔法：Magentic-UI 如何重新定义人机协作

Magentic-UI 支持 OpenAI、Azure OpenAI 和 Ollama 模型。你可以在界面设置中调整模型配置，或使用。

2025-05-22 22:00:00 1001

原创潜入思维的星海：SoftCoT++如何为语言模型插上智慧的翅膀

连续空间推理是指模型在高维潜在空间中生成推理步骤，而非直接生成具体文本令牌。离散推理像是用乐高积木搭建房子，每块积木形状固定；连续推理像是用黏土塑形，可自由调整细节，表达更丰富的想法。

2025-05-22 21:00:00 39

原创潜入思维的海洋：SoftCoT++如何让语言模型更聪明

连续空间推理是指模型在高维的潜在空间中生成推理步骤，而不是直接生成具体的文本令牌。想象一下，离散推理像是用乐高积木搭建房子，每块积木都是固定的形状；而连续推理像是用黏土塑形，可以自由调整细节，表达更丰富的想法。

2025-05-22 20:00:00 39

原创代码世界的“数字炼金术士”：OpenHands Resolver Runner 如何借助 CI/CD 实现自动化问题修复的涅槃重生**

OpenHands Resolver Runner 的构想，不仅仅是对 OpenHands 项目功能的一次重要增强，更是对软件自动化维护领域的一次深远探索。它巧妙地将 AI 的问题解决能力与 CI/CD 的流程自动化能力相结合，描绘了一幅开发者能够更专注于创造性工作，而将大量重复、繁琐的修复任务交给智能机器人的美好图景。正如。

2025-05-22 00:00:00 554

原创双脑记：当AI代码助手学会了精打细算与协同作战

在自然语言处理中，文本会被分解成更小的单元，这些单元就被称为“令牌”。它可以是一个词、一个字符，或者一个词的一部分。AI 模型处理文本的成本通常与其消耗的令牌数量成正比。另一方面，像 GPT-4.1 这样的模型，虽然在顶层规划能力上可能稍逊一筹，但它们拥有百万级别的令牌处理窗口，并且价格更为亲民。这使得它们在处理具体的、迭代式的代码修改和理解整个代码仓库上下文方面，具有天然的成本优势。

2025-05-22 00:00:00 1123

原创代码的智慧交响：双模型如何重塑智能编程的未来

从单一模型到双模型流水线，OpenHands的这一提议如同为智能编程注入了一剂强心针。它不仅解决了成本与性能的矛盾，还为开发者提供了一个更加灵活、高效的工作伙伴。正如一位程序员在GitHub上感慨：“让o3规划全局，GPT-4.1执行细节，这就像请了一位战略大师和一位熟练工匠同时为你工作。在AI驱动的编程时代，双模型流水线或许只是一个起点。随着技术的进步和社区的协作，OpenHands有望成为每一位开发者的“超级助手”，让代码的创作过程如同一场智慧与效率的交响乐章。未来已来，你准备好加入这场变革了吗？

2025-05-21 22:36:41 43 1

原创 Google I/O 2025 大会深度综合分析报告：AI 重塑一切的蓝图

Google I/O 2025发布了大量的产品更新和新技术公告，覆盖了从核心AI模型到终端用户应用再到开发者工具的各个层面。

2025-05-21 20:00:00 566

原创 AI Agent时代：程序员的回归与重塑

同样地，AI Agent并未削弱程序员的价值，反而促使他们从繁琐的重复劳动中解放出来，回归到软件工程师的定位，专注于更具创造性和战略性的任务，如系统架构设计、算法优化、新技术探索等。如今，随着AI Agent技术的迅猛发展，程序员这一职业正经历着一场深刻的变革，逐渐回归其本质——软件工程师的定位。然而，真正的程序员，实则是软件工程师，他们的工作远不止于简单的代码编写，而是需要运用深厚的计算机科学知识、工程原理以及创新思维，去设计、开发和优化复杂的软件系统。

2025-05-21 18:37:34 510

原创 OpenHands项目分析报告

OpenHands项目，由All-Hands-AI社区发起并维护，被精确地定义为一个开源的AI编程代理平台（An Open Source AI Programming Agent Platform）。AI编程代理 (AI Programming Agent)：这不仅仅是指能够辅助编写代码的AI工具。这里的“代理”（Agent）意味着一种具备高度自主性、目标导向性、环境感知能力和行动执行能力的智能实体。

2025-05-21 12:18:26 700

原创 FastVLM：当视觉语言模型插上效率的翅膀，高分辨率图像处理的破晓时刻

这里我们对庞大的表6进行关键点的总结和展示，完整表格请参考原论文。

2025-05-20 22:37:38 869

原创幻觉的迷宫：DeCo算法与大型语言模型的真相之旅

幻觉，是AI世界里最难缠的“幽灵”。DeCo算法为MLLMs带来了曙光，但在LLMs的幻觉治理上，仍需更多探索与创新。未来，只有多策略协同、持续评估与人机共治，才能让AI真正成为值得信赖的“智慧伙伴”。让我们一起，走出幻觉的迷宫，迎接AI的光明未来！

2025-05-20 20:00:00 1709

原创幻觉的迷雾：揭秘DeCo算法如何为语言模型拨云见日

后处理技术通过自动化事实检查或人机交互验证，过滤掉幻觉内容。例如，DataRobot的系统能在生成后识别不一致的输出，显著提高可靠性（减少LLM幻觉的方法。

2025-05-20 08:25:42 853

原创人工智能的理性之旅：从人类智慧到AI的深思熟虑

人工智能（AI）宛如一位不知疲倦的探险家，正在重新定义我们对“思考”的理解。从数学难题到代码调试，大型语言模型（LLMs）通过链式推理（Chain-of-Thought, CoT）和测试时计算（test-time compute）展现出类似人类“慢思考”的能力，仿佛在数字世界中绘制出一张张思维地图。本文基于Lilian Weng的博客文章《Why We Think》（2025年5月）及相关研究，深入浅出地探索测试时计算和CoT的机制、挑战与未来潜力。

2025-05-18 16:48:13 824

原创沉思的艺术：从人类智慧到人工智能的理性之旅

人工智能（AI）的进步正在重塑我们对“思考”的理解，尤其是通过测试时计算（test-time compute）和链式推理（Chain-of-Thought, CoT）模拟人类的“慢思考”过程。测试时计算允许AI在推理时动态分配更多计算资源，显著提升了其在数学、编码和逻辑推理等复杂任务中的表现。链式推理则通过生成中间推理步骤，使AI的思考过程更加透明和可解释。研究表明，优化“思考时间”能够显著提高AI的决策质量，尤其是在大规模语言模型中。未来，AI的理性进化将依赖于如何激励忠实的推理路径、避免奖励欺骗，以及自

2025-05-18 16:31:16 107

原创声音的魔法：从文字到人声的奇幻之旅

在数字时代，文字到语音（Text-to-Speech, TTS）技术如同一位现代魔法师，将冰冷的文字转化为富有情感的语音。MiniMax-Speech 作为这一领域的先锋，以其基于自回归 Transformer 的架构，结合创新的可学习说话人编码器和 Flow-VAE 技术，重新定义了语音合成的边界。这款模型不仅能从一段无文本的参考音频中提取音色特征，实现零样本语音克隆，还能在 32 种语言中生成近乎人类的高保真语音。

2025-05-17 23:32:20 54

原创从芯片到聊天机器人：DeepSeek-V3如何让AI更快、更省、更聪明

DeepSeek-V3就像一个聪明的“省钱大师”和“速度狂人”，用MLA、MoE、FP8和多平面网络，解决了内存、成本和速度的难题。它的故事告诉我们：AI不只是算法的游戏，更是硬件和软件的完美配合。未来，随着这些技术的普及，AI会变得更便宜、更快，走进每个开发者的电脑，甚至每个人的生活。就像一位开发者说的：“我们不是在写代码，而是在为未来铺路！

2025-05-16 22:25:38 48

原创从硅到智慧：DeepSeek-V3如何重塑AI硬件与模型的未来

DeepSeek-V3以其硬件感知的设计和创新技术，展示了如何在内存、成本和速度的三角制约中找到平衡点。它的故事不仅关乎技术突破，更关乎如何通过硬件与模型的协同设计，搭建通向更智能、更普惠AI未来的桥梁。正如一位工程师在深夜调试代码时所感叹：“我们不是在建造模型，而是在为智慧铺路。”未来，随着硬件与模型的共舞，AI的潜力将进一步释放，为人类带来更多可能。

2025-05-16 22:21:52 672

原创时间的智慧：持续思考机器的智能革命

Continuous Thought Machine（CTM）是一场时间与智能的革命。它通过神经元级时间处理和同步机制，让AI从静态计算迈向动态思考。从迷路中的智者到图像中的思考者，再到动态环境中的决策者，CTM以其解释性和灵活性重塑了AI的边界。Sakana AI的这一探索，不仅为AI注入了生物学的智慧，也为智能的未来指明了方向。如同神经元在时间的旋律中同步共鸣，CTM点亮了通往通用智能的道路。让我们期待，这台持续思考的机器将如何继续演绎，引领我们探索智能的无限可能。

2025-05-16 00:00:00 32

原创鱼儿探秘：人工智能如何掀起科学发现的新浪潮

人工智能（AI）正在以前所未有的方式重塑科学研究的版图。从实验室的灵光一现到学术期刊的严谨论文，AI正逐渐成为科学家们的得力助手，甚至开始独立探索未知的科学领域。在日本的Sakana AI实验室，一种名为“AI科学家”（The AI Scientist）的系统正在崭露头角，它不仅能自主构思研究课题，还能编写代码、执行实验、撰写论文，甚至进行同行评审。这一切，仅仅需要大约15美元的计算成本。让我们跟随这只“AI鱼儿”，潜入科学的深海，探索它如何以自然界为灵感，掀起一场开放式科学发现的革命。

2025-05-16 00:00:00 27

原创时间的魔法：持续思考机器如何让AI更聪明

Continuous Thought Machine（CTM）就像给AI装上了一个“时间引擎”，让它从冷冰冰的计算机器，变成了能像人一样思考的伙伴。它的神经元级时间处理和同步机制，带来了惊艳的推理能力和透明的决策过程。从迷宫探险到图片分类，再到游戏决策，CTM都在告诉我们：时间是智能的秘密武器。对于AI开发者来说，CTM不仅是一个新模型，更是一种新思路。它提醒我们，生物大脑还有很多宝藏值得挖掘。

2025-05-15 21:00:00 32

原创时间的舞蹈：从神经同步到人工智能的思考革命

Continuous Thought Machine（CTM）是一场关于时间与思考的革命。它通过引入神经元活动的时间信息和同步机制，让AI不再是冷冰冰的计算机器，而是像生物大脑一样，逐步推理、灵活适应的“思考者”。从迷宫中的探路者到图像中的凝视者，CTM展现了令人叹服的解解释性和类人行为。Sakana AI的这一尝试，不仅为AI注入了生物学的灵感，也为神经科学与计算科学的融合打开了大门。正如萤火虫的同步闪烁点亮了夜空，CTM的神经元同步或许将照亮智能的未来。

2025-05-15 20:00:00 34

原创声音的魔法书：从波形到文字的奇妙旅程

声音是人类交流的基石，无论是慷慨激昂的演讲、轻声细语的对话，还是街头巷尾的歌声，它承载了情感、思想与文化。然而，将这些稍纵即逝的声波转化为精确的文字，一直是科技领域的巨大挑战。2025年，NVIDIA推出了一款名为的自动语音识别（ASR）模型，以6000万参数的精巧身躯，书写了从音频到文本的魔法篇章。这款模型不仅能捕捉英语的细腻表达，还能为文字自动加上标点和大小写，甚至预测每个词的时间戳，宛如一位全能的速记大师。

2025-05-14 21:29:13 925

原创芯片的自由之路：大模型如何生成“无侵权”Verilog代码

在硅谷，AI大模型（LLM）的崛起为芯片设计带来了便利，但也引发了版权风险。AI生成的Verilog代码可能包含未经授权的版权内容，导致法律纠纷。为解决这一问题，研究团队创建了FreeSet，一个经过严格筛选的开源Verilog数据集，确保代码的合法性和原创性。通过自动化爬取、版权过滤和语法检查，FreeSet成为目前最大、最干净的Verilog数据集。基于此，团队训练了FreeV模型，显著提升了Verilog生成的功能性，同时大幅降低了侵权风险。未来，团队计划进一步扩展数据集并优化训练策略，推动AI芯片设

2025-05-14 08:00:00 1139

原创代码的自由之旅：用AI写出无版权烦恼的Verilog

他们还基于这个数据集，训练了一个名叫“FreeV”的AI模型，不仅能写出好用的Verilog代码，还把版权侵权的风险降到了仅3%。为了让AI安全地写Verilog，研究团队提出了三个“法宝”：一个检测AI是否会生成侵权代码的测试方法、一个干净的Verilog数据集FreeSet，还有一个基于FreeSet训练的AI模型FreeV。AI的记忆力超强，能记住训练时见过的代码。测试发现，一些用Verilog数据训练过的AI，比如VeriGen，生成侵权代码的概率从9%涨到了15%，说明它们可能学了不该学的代码。

2025-05-14 00:00:00 938

原创同行的智慧：大模型推理的“开头魔咒”与LeaP的破局

每隔一段时间（比如每写完几句话），AI就要把目前的思路用一句话总结出来，不能太长，最多256个字。这就像老师让你写“解题小结”。

2025-05-13 22:45:39 853

原创从像素到智慧：神经符号概念的智能新纪元

神经符号概念为通用智能体的构建提供了一条充满希望的道路。通过将神经网络的感知能力与符号逻辑的推理能力结合，它实现了数据高效、组合泛化、持续学习和零样本迁移。从2D图像到机器人操作，这一框架展示了其在多领域的潜力。未来，通过构建跨域概念库和解决复杂关系推理的挑战，神经符号概念有望推动AI迈向真正的通用智能。

2025-05-13 20:00:00 788

原创微调的魔法：从数据到性能的智慧之旅

康涅狄格大学的研究揭示了在资源受限环境下高效微调大型语言模型（LLM）的新方法。传统训练中，数据通常以总令牌数衡量，忽略了样本数量与长度的构成对模型性能的影响。研究提出了一种新的微调缩放定律，将数据集体积定义为样本数量与平均长度的乘积，并通过实验验证了优化数据构成能显著提升模型性能。实验表明，在相同令牌总量下，更多短样本或平衡样本组合优于少量长样本。这一发现为资源有限的实践者提供了优化模型性能的新策略，未来有望扩展到量化与参数高效微调等领域，推动人工智能技术的进一步发展。

2025-05-13 07:00:00 30

原创算力魔法师的抉择：大模型微调的“数据拼图”与效率定律

在大模型（LLM）微调中，数据组成对模型性能的影响至关重要。Lagasse 等人的研究表明，数据的“拼图”方式——即样本数量和长度的组合——会显著影响微调效果。传统观点认为，数据越多，模型越聪明，但研究发现，数据体积（$V = N \cdot L$，其中 $N$ 是样本数，$L$ 是平均 token 长度）的组成方式同样重要。通过三种策略（few_long、many_short、balanced）的实验，科学家发现，不同的数据拼法在相同的总 token 数下，准确率存在差异。

2025-05-13 02:00:00 1009

原创对话中的迷雾：大语言模型为何在聊天中“迷路”

在数字时代，大语言模型（LLMs）如ChatGPT、Gemini和Claude已成为日常助手，能够处理多种任务并协助用户理清思路。然而，Microsoft和Salesforce的研究表明，尽管LLMs在单轮对话中表现出色，但在多轮对话中表现显著下降，平均表现下降39%。研究通过“分片实验”模拟现实中的零散信息提供，发现多轮对话形式是导致模型“迷路”的主要原因。模型在多轮对话中容易急于给出答案、答案过长、忽略中间信息以及过度啰嗦，导致可靠性大幅下降。研究建议，未来的LLMs需要在设计上改进，以在多轮对话中保持

2025-05-12 22:24:58 672

原创解码星辰：从慢思考到快如闪电的语言模型推理

大型语言模型（LLM）的推理速度问题一直是AI领域的挑战。Snowflake Arctic模型结合vLLM引擎的推测解码技术，显著提升了推理速度。推测解码通过让一个小模型快速预测大模型的输出，再由大模型验证，从而减少推理时间。这种“先猜后验”的策略在保持输出质量的同时，将推理速度提升了2-3倍。vLLM还通过连续批处理、PagedAttention等工程优化进一步提高了效率。推测解码在实时对话系统、企业级数据分析和教育创作等场景中展现了广阔的应用前景。Snowflake提供了详细的实现指南，开发者可以轻松复

2025-05-12 22:00:00 907

FOUNDATION AGENTS的进展与挑战从脑启发智能到进化、协作和安全的系统 ### 人工智能大型语言模型驱动的智能体模块化架构及其安全性和进化机制综述

内容概要：本文是一篇关于智能体（agents）的综述，探讨了从脑启发智能到进化、协作和安全系统的进展与挑战。文章首先介绍了智能体的模块化设计，涵盖认知、感知、行动、记忆、世界建模、情感、目标和奖励等核心组件，强调了这些模块与人类大脑功能的相似性。接下来，文章探讨了智能体的自我增强机制，包括自适应学习、反馈驱动的改进和持续知识集成，以适应动态环境。随后，文章讨论了多智能体系统的协作与进化，强调了集体智慧和适应性决策的重要性。最后，文章详细分析了构建安全和有益的AI系统的必要性，提出了内在和外在安全威胁的缓解策略。文章还探讨了未来的研究方向，包括多模态感知、长上下文建模、幻觉缓解策略等。适用人群：本文适合研究人员、学生、政策制定者和行业从业者，尤其是对AI智能体、大型语言模型（LLMs）及其应用感兴趣的读者，以及对未来社会中人类与AI共存感兴趣的群体。使用场景及目标：①理解智能体的模块化设计和其与人类认知的相似性；②学习智能体的自我增强机制和持续学习策略；③探讨多智能体系统的协作模式和集体智慧；④掌握构建安全、有保障和有益的AI系统的策略和技术。其他说明：本文不仅提供了关于智能体的全面概述，还鼓励读者提出新问题并探索这一领域的研究空白。文章强调了智能体设计不仅要追求强大和高效，还要具备适应性、伦理性和与人类社会的深度一致性。通过综合不同学科的见解，本文为智能体的发展提供了一个前瞻性的路线图。

2025-04-09

Qwen2.5-Omni 论文Word格式

2025-03-27

不要再过度思考了：一项关于对大型语言模型的有效推理

2025-03-23

TokenButler- Token Importance is Predictable.docx

大型语言模型（LLMs）依赖于键值（KV）缓存来存储标记历史，从而实现标记的有效解码。随着KV缓存的增长，它成为主要的内存和计算瓶颈。然而，有机会缓解这一瓶颈，特别是因为先前的研究表明，只有很小一部分标记在每个解码步骤中都有意义地贡献。寻找这些关键标记的主要挑战在于它们是动态的，并且严重依赖于输入查询。现有的方法要么冒着质量风险永久驱逐标记，要么保留完整的KV缓存，但在生成时依赖于检索标记块（页面），在密集、内容丰富的任务中失败。此外，许多现有的KV缓存稀疏方法依赖于对标记重要性的不准确代理。为了解决这些限制，我们引入了TokenButler，这是一个高粒度、查询感知的预测器，它学会了识别这些关键标记。通过训练一个轻量级预测器，其参数开销不到1.2%，TokenButler根据标记的上下文预测重要性进行优先排序。这提高了困惑度和下游准确性，相对于估计标记重要性的最新方法提高了超过8%。我们在一个新颖的合成小上下文共指检索任务上评估了TokenButler，展示了接近或达到神谕准确度的性能。

2025-03-11

现有的长文本生成方法主要集中在从短输入生成长文本上，忽略了长输入和长输出任务这类任务有许多实际应用，但缺乏可用的基准此外，随着输入长度的增加，现有方法不可避免地会遇到“中间丢失”现象

现有的长文本生成方法主要集中在从短输入生成长文本上，忽略了长输入和长输出任务。这类任务有许多实际应用，但缺乏可用的基准。此外，随着输入长度的增加，现有方法不可避免地会遇到“中间丢失”现象。在本文中，我们首先介绍了一个长输入和长输出基准（LONGINOUTBENCH），包括一个合成数据集和一个全面的评估框架，解决了缺失基准的挑战。然后我们开发了检索增强型长文本写手（RALWRITER），它检索并重述了重要但被忽视的内容，通过构建明确的提示来缓解“中间丢失”问题。最后我们使用提出的LONGINOUTBENCH来评估我们的RALWRITER与可比基线，结果证明了我们方法的有效性。我们的代码已在 https://github.com/OnlyAR/RAL-Writer 发布。

2025-03-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

FOUNDATION AGENTS的进展与挑战 从脑启发智能到进化、协作和安全的系统 ### 人工智能大型语言模型驱动的智能体模块化架构及其安全性和进化机制综述

Qwen2.5-Omni 论文Word格式

不要再过度思考了：一项关于 对大型语言模型的有效推理

TokenButler- Token Importance is Predictable.docx

现有的长文本生成方法主要集中在从短输入生成长文本上，忽略了长输入和长输出任务 这类任务有许多实际应用，但缺乏可用的基准 此外，随着输入长度的增加，现有方法不可避免地会遇到“中间丢失”现象

《从塔楼到尖顶：一次语音魔法的奇幻旅程》

论文译文：LLM Maybe LongLM: SelfExtend LLM Context Window Without Tun

巨型语言模型的 8 位量化：LLM.int8() 中文版论文

LLM+Mamba具有选择性状态空间的线性时间序列建模

Meta的Pearl强化学习库入门（中文版）.pdf

空空如也

FOUNDATION AGENTS的进展与挑战从脑启发智能到进化、协作和安全的系统 ### 人工智能大型语言模型驱动的智能体模块化架构及其安全性和进化机制综述

不要再过度思考了：一项关于对大型语言模型的有效推理

现有的长文本生成方法主要集中在从短输入生成长文本上，忽略了长输入和长输出任务这类任务有许多实际应用，但缺乏可用的基准此外，随着输入长度的增加，现有方法不可避免地会遇到“中间丢失”现象