自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

步子哥的博客

分享有意义的内容

  • 博客(3269)
  • 收藏
  • 关注

原创 幻觉的迷雾:揭秘DeCo算法如何为语言模型拨云见日

后处理技术通过自动化事实检查或人机交互验证,过滤掉幻觉内容。例如,DataRobot的系统能在生成后识别不一致的输出,显著提高可靠性(减少LLM幻觉的方法。

2025-05-20 08:25:42 408

原创 人工智能的理性之旅:从人类智慧到AI的深思熟虑

人工智能(AI)宛如一位不知疲倦的探险家,正在重新定义我们对“思考”的理解。从数学难题到代码调试,大型语言模型(LLMs)通过链式推理(Chain-of-Thought, CoT)和测试时计算(test-time compute)展现出类似人类“慢思考”的能力,仿佛在数字世界中绘制出一张张思维地图。本文基于Lilian Weng的博客文章《Why We Think》(2025年5月)及相关研究,深入浅出地探索测试时计算和CoT的机制、挑战与未来潜力。

2025-05-18 16:48:13 657

原创 沉思的艺术:从人类智慧到人工智能的理性之旅

人工智能(AI)的进步正在重塑我们对“思考”的理解,尤其是通过测试时计算(test-time compute)和链式推理(Chain-of-Thought, CoT)模拟人类的“慢思考”过程。测试时计算允许AI在推理时动态分配更多计算资源,显著提升了其在数学、编码和逻辑推理等复杂任务中的表现。链式推理则通过生成中间推理步骤,使AI的思考过程更加透明和可解释。研究表明,优化“思考时间”能够显著提高AI的决策质量,尤其是在大规模语言模型中。未来,AI的理性进化将依赖于如何激励忠实的推理路径、避免奖励欺骗,以及自

2025-05-18 16:31:16 80

原创 声音的魔法:从文字到人声的奇幻之旅

在数字时代,文字到语音(Text-to-Speech, TTS)技术如同一位现代魔法师,将冰冷的文字转化为富有情感的语音。MiniMax-Speech 作为这一领域的先锋,以其基于自回归 Transformer 的架构,结合创新的可学习说话人编码器和 Flow-VAE 技术,重新定义了语音合成的边界。这款模型不仅能从一段无文本的参考音频中提取音色特征,实现零样本语音克隆,还能在 32 种语言中生成近乎人类的高保真语音。

2025-05-17 23:32:20 24

原创 从芯片到聊天机器人:DeepSeek-V3如何让AI更快、更省、更聪明

DeepSeek-V3就像一个聪明的“省钱大师”和“速度狂人”,用MLA、MoE、FP8和多平面网络,解决了内存、成本和速度的难题。它的故事告诉我们:AI不只是算法的游戏,更是硬件和软件的完美配合。未来,随着这些技术的普及,AI会变得更便宜、更快,走进每个开发者的电脑,甚至每个人的生活。就像一位开发者说的:“我们不是在写代码,而是在为未来铺路!

2025-05-16 22:25:38 30

原创 从硅到智慧:DeepSeek-V3如何重塑AI硬件与模型的未来

DeepSeek-V3以其硬件感知的设计和创新技术,展示了如何在内存、成本和速度的三角制约中找到平衡点。它的故事不仅关乎技术突破,更关乎如何通过硬件与模型的协同设计,搭建通向更智能、更普惠AI未来的桥梁。正如一位工程师在深夜调试代码时所感叹:“我们不是在建造模型,而是在为智慧铺路。”未来,随着硬件与模型的共舞,AI的潜力将进一步释放,为人类带来更多可能。

2025-05-16 22:21:52 653

原创 时间的智慧:持续思考机器的智能革命

Continuous Thought Machine(CTM)是一场时间与智能的革命。它通过神经元级时间处理和同步机制,让AI从静态计算迈向动态思考。从迷路中的智者到图像中的思考者,再到动态环境中的决策者,CTM以其解释性和灵活性重塑了AI的边界。Sakana AI的这一探索,不仅为AI注入了生物学的智慧,也为智能的未来指明了方向。如同神经元在时间的旋律中同步共鸣,CTM点亮了通往通用智能的道路。让我们期待,这台持续思考的机器将如何继续演绎,引领我们探索智能的无限可能。

2025-05-16 00:00:00 21

原创 鱼儿探秘:人工智能如何掀起科学发现的新浪潮

人工智能(AI)正在以前所未有的方式重塑科学研究的版图。从实验室的灵光一现到学术期刊的严谨论文,AI正逐渐成为科学家们的得力助手,甚至开始独立探索未知的科学领域。在日本的Sakana AI实验室,一种名为“AI科学家”(The AI Scientist)的系统正在崭露头角,它不仅能自主构思研究课题,还能编写代码、执行实验、撰写论文,甚至进行同行评审。这一切,仅仅需要大约15美元的计算成本。让我们跟随这只“AI鱼儿”,潜入科学的深海,探索它如何以自然界为灵感,掀起一场开放式科学发现的革命。

2025-05-16 00:00:00 18

原创 时间的魔法:持续思考机器如何让AI更聪明

Continuous Thought Machine(CTM)就像给AI装上了一个“时间引擎”,让它从冷冰冰的计算机器,变成了能像人一样思考的伙伴。它的神经元级时间处理和同步机制,带来了惊艳的推理能力和透明的决策过程。从迷宫探险到图片分类,再到游戏决策,CTM都在告诉我们:时间是智能的秘密武器。对于AI开发者来说,CTM不仅是一个新模型,更是一种新思路。它提醒我们,生物大脑还有很多宝藏值得挖掘。

2025-05-15 21:00:00 19

原创 时间的舞蹈:从神经同步到人工智能的思考革命

Continuous Thought Machine(CTM)是一场关于时间与思考的革命。它通过引入神经元活动的时间信息和同步机制,让AI不再是冷冰冰的计算机器,而是像生物大脑一样,逐步推理、灵活适应的“思考者”。从迷宫中的探路者到图像中的凝视者,CTM展现了令人叹服的解解释性和类人行为。Sakana AI的这一尝试,不仅为AI注入了生物学的灵感,也为神经科学与计算科学的融合打开了大门。正如萤火虫的同步闪烁点亮了夜空,CTM的神经元同步或许将照亮智能的未来。

2025-05-15 20:00:00 17

原创 声音的魔法书:从波形到文字的奇妙旅程

声音是人类交流的基石,无论是慷慨激昂的演讲、轻声细语的对话,还是街头巷尾的歌声,它承载了情感、思想与文化。然而,将这些稍纵即逝的声波转化为精确的文字,一直是科技领域的巨大挑战。2025年,NVIDIA推出了一款名为的自动语音识别(ASR)模型,以6000万参数的精巧身躯,书写了从音频到文本的魔法篇章。这款模型不仅能捕捉英语的细腻表达,还能为文字自动加上标点和大小写,甚至预测每个词的时间戳,宛如一位全能的速记大师。

2025-05-14 21:29:13 908

原创 芯片的自由之路:大模型如何生成“无侵权”Verilog代码

在硅谷,AI大模型(LLM)的崛起为芯片设计带来了便利,但也引发了版权风险。AI生成的Verilog代码可能包含未经授权的版权内容,导致法律纠纷。为解决这一问题,研究团队创建了FreeSet,一个经过严格筛选的开源Verilog数据集,确保代码的合法性和原创性。通过自动化爬取、版权过滤和语法检查,FreeSet成为目前最大、最干净的Verilog数据集。基于此,团队训练了FreeV模型,显著提升了Verilog生成的功能性,同时大幅降低了侵权风险。未来,团队计划进一步扩展数据集并优化训练策略,推动AI芯片设

2025-05-14 08:00:00 1118

原创 代码的自由之旅:用AI写出无版权烦恼的Verilog

他们还基于这个数据集,训练了一个名叫“FreeV”的AI模型,不仅能写出好用的Verilog代码,还把版权侵权的风险降到了仅3%。为了让AI安全地写Verilog,研究团队提出了三个“法宝”:一个检测AI是否会生成侵权代码的测试方法、一个干净的Verilog数据集FreeSet,还有一个基于FreeSet训练的AI模型FreeV。AI的记忆力超强,能记住训练时见过的代码。测试发现,一些用Verilog数据训练过的AI,比如VeriGen,生成侵权代码的概率从9%涨到了15%,说明它们可能学了不该学的代码。

2025-05-14 00:00:00 917

原创 同行的智慧:大模型推理的“开头魔咒”与LeaP的破局

每隔一段时间(比如每写完几句话),AI就要把目前的思路用一句话总结出来,不能太长,最多256个字。这就像老师让你写“解题小结”。

2025-05-13 22:45:39 831

原创 从像素到智慧:神经符号概念的智能新纪元

神经符号概念为通用智能体的构建提供了一条充满希望的道路。通过将神经网络的感知能力与符号逻辑的推理能力结合,它实现了数据高效、组合泛化、持续学习和零样本迁移。从2D图像到机器人操作,这一框架展示了其在多领域的潜力。未来,通过构建跨域概念库和解决复杂关系推理的挑战,神经符号概念有望推动AI迈向真正的通用智能。

2025-05-13 20:00:00 745

原创 微调的魔法:从数据到性能的智慧之旅

康涅狄格大学的研究揭示了在资源受限环境下高效微调大型语言模型(LLM)的新方法。传统训练中,数据通常以总令牌数衡量,忽略了样本数量与长度的构成对模型性能的影响。研究提出了一种新的微调缩放定律,将数据集体积定义为样本数量与平均长度的乘积,并通过实验验证了优化数据构成能显著提升模型性能。实验表明,在相同令牌总量下,更多短样本或平衡样本组合优于少量长样本。这一发现为资源有限的实践者提供了优化模型性能的新策略,未来有望扩展到量化与参数高效微调等领域,推动人工智能技术的进一步发展。

2025-05-13 07:00:00 16

原创 算力魔法师的抉择:大模型微调的“数据拼图”与效率定律

在大模型(LLM)微调中,数据组成对模型性能的影响至关重要。Lagasse 等人的研究表明,数据的“拼图”方式——即样本数量和长度的组合——会显著影响微调效果。传统观点认为,数据越多,模型越聪明,但研究发现,数据体积($V = N \cdot L$,其中 $N$ 是样本数,$L$ 是平均 token 长度)的组成方式同样重要。通过三种策略(few_long、many_short、balanced)的实验,科学家发现,不同的数据拼法在相同的总 token 数下,准确率存在差异。

2025-05-13 02:00:00 1000

原创 对话中的迷雾:大语言模型为何在聊天中“迷路”

在数字时代,大语言模型(LLMs)如ChatGPT、Gemini和Claude已成为日常助手,能够处理多种任务并协助用户理清思路。然而,Microsoft和Salesforce的研究表明,尽管LLMs在单轮对话中表现出色,但在多轮对话中表现显著下降,平均表现下降39%。研究通过“分片实验”模拟现实中的零散信息提供,发现多轮对话形式是导致模型“迷路”的主要原因。模型在多轮对话中容易急于给出答案、答案过长、忽略中间信息以及过度啰嗦,导致可靠性大幅下降。研究建议,未来的LLMs需要在设计上改进,以在多轮对话中保持

2025-05-12 22:24:58 660

原创 解码星辰:从慢思考到快如闪电的语言模型推理

大型语言模型(LLM)的推理速度问题一直是AI领域的挑战。Snowflake Arctic模型结合vLLM引擎的推测解码技术,显著提升了推理速度。推测解码通过让一个小模型快速预测大模型的输出,再由大模型验证,从而减少推理时间。这种“先猜后验”的策略在保持输出质量的同时,将推理速度提升了2-3倍。vLLM还通过连续批处理、PagedAttention等工程优化进一步提高了效率。推测解码在实时对话系统、企业级数据分析和教育创作等场景中展现了广阔的应用前景。Snowflake提供了详细的实现指南,开发者可以轻松复

2025-05-12 22:00:00 886

原创 AI智能体中的对话流与工作流:构建智能交互与复杂任务的完美结合

在人工智能领域,智能体(AI Agents)通过对话流(Chatflow)和工作流(Workflow)的协同工作,实现了人机交互与任务执行的无缝衔接。对话流负责与用户进行多轮对话,理解意图并生成回复,而工作流则处理后台的复杂任务,如库存查询、支付扣款等。两者的结合不仅提升了AI的实用性,还满足了“人在回路”的需求,确保人类能够随时干预和反馈。通过智能体开发平台如n8n和Dify的支持,开发者可以高效构建兼具智能交互与复杂业务处理能力的代理,真正实现AI的“全能”。

2025-05-12 21:31:13 27

原创 进程/线程调度器在大小核心CPU架构中的设计与比较

本文探讨了Android、Windows、Linux和macOS/iOS操作系统在大小核CPU架构中的调度器设计及其优化策略。Android采用能量感知调度(EAS)和SchedTune机制,将高优先级任务分配到大核,低优先级任务分配到小核,以优化性能和能耗。Windows 11通过英特尔的Thread Director硬件反馈,动态选择性能核或效率核,提升调度效率。Linux则结合EAS和容量感知调度,根据任务负载和核心容量分配任务,实现性能与能效的平衡。macOS/iOS基于服务质量(QoS)机制,高Q

2025-05-12 12:51:07 1002

原创 AI的“火眼金睛”是如何炼成的:揭秘通用奖励模型背后的SPCT算法

大型语言模型(LLMs)如孙悟空般神通广大,但需要“紧箍咒”来约束行为,这就是奖励模型(Reward Model, RM)的作用。RM通过打分引导LLMs生成有用、真实、无害的回答。DeepSeek-AI提出的生成式奖励模型(Generative Reward Model, GRM)通过自我原则批判调优(Self-Principled Critique Tuning, SPCT)方法,生成了DeepSeek-GRM,它不仅能打分,还能生成详细的文字评论,解释评分依据,提高透明度和灵活性。 GRM的训练分为两

2025-05-12 07:40:41 445

原创 数字工匠的蓝图:揭秘Cooragent中AI智能体模板的设计与运作

多智能体协作系统(Multi-Agent Systems)在人工智能领域展现出解决复杂问题的巨大潜力。LeapLabTHU 的 Cooragent 项目通过基于模板的智能体设计,提供了一种高效、灵活的管理方案。Cooragent 的核心在于使用 Markdown 文件作为智能体模板,定义了智能体的角色、任务、执行步骤和注意事项。这些模板通过 template.py 文件动态生成系统提示,结合智能体状态,驱动智能体执行任务。Agent 类封装了智能体的关键信息,而 AgentManager 则负责智能体的生命

2025-05-12 00:00:00 811

原创 【油猴脚本】马克笔

2025-05-11 18:38:50 409

原创 代码低语者:OpenAI Codex CLI 的终端奇缘

在。

2025-05-11 07:59:43 814

原创 扔掉拐杖!AI自学成才,推理能力“零数据”起飞,人类老师要失业了?

文章介绍了人工智能领域的一项突破性进展——“绝对零度推理器”(AZR),它无需依赖人类提供的数据,通过自我出题、解题和验证的方式,自主提升编程和数学推理能力。AZR的核心创新在于其“零数据”训练模式,通过编程这一逻辑严谨的领域,AI能够自我生成问题并解决,从而锻炼其演绎、溯因和归纳推理能力。实验结果显示,AZR在编程和数学推理任务上表现优异,甚至超过了依赖于大量人类标注数据的传统AI模型。此外,AZR在自学过程中展现出了智能行为,如自我反思、写注释等,但也暴露了需要人类监督的安全问题。这一突破预示着AI可能

2025-05-11 07:15:33 551

原创 代码的第六感:当“感觉对味”成为一种高级程序艺术

在软件工程师的神秘武库中,除了逻辑、算法和数据结构这些硬核兵器,还潜藏着一种更为玄妙的“内功心法”——我们不妨称之为“氛围感编码”(Vibe Coding)。它不像教科书上的定理那样可以精确描述,更像是一种经验丰富的老饕在品尝佳肴时,仅凭香气和第一口的感觉就能判断其火候与品质的直觉。这并非空穴来风的臆断,而是深厚经验与模式识别能力在潜意识层面的高级运作。今天,就让我们一同揭开“氛围感编码”的神秘面纱,探索它在人类智慧与人工智能交织的时代,所扮演的独特角色。

2025-05-10 08:00:00 775

原创 代码的共振:Vibe Coding 与高质量软件的秘密

《Vibe Coding: Higher Quality Code》一文提出了“氛围编程”(Vibe Coding)的概念,强调团队氛围对代码质量的深远影响。文章指出,高质量的代码往往诞生于积极、开放、互信的团队环境中,而非仅仅依赖严格的流程和工具。Vibe Coding的三大支柱包括心理安全感、开放的沟通和共同的目标感。通过营造心理安全区、建立高效沟通机制和制定灵活的规范,团队可以显著提升代码质量、减少bug、提高成员满意度。文章还通过数据和案例展示了Vibe Coding的实际成效,并展望了其在未来远程

2025-05-10 00:00:00 1334

原创 微代理奇遇记:OpenHands 智能协作的幕后英雄

在数字世界中,OpenHands 通过微代理(Microagents)改变了开发者与代码仓库的互动方式。微代理是专精于特定领域的智能工具,能够自动化任务、提供专家级指导,并确保项目最佳实践的传承。通过在项目根目录下创建 .openhands 文件夹,开发者可以为 OpenHands 注入“定制化的灵魂”,使其更懂项目需求。微代理分为四大类:通用仓库微代理、关键词触发微代理、全局微代理和微代理的元数据。它们各自发挥独特作用,从项目说明书到按需定制的响应,再到社区共享的智慧结晶。微代理的加载方式决定了它们的“出

2025-05-09 04:35:21 580

原创 算术迷宫:大语言模型的数学推理幻象

大语言模型(LLMs)在数学推理方面的表现引发了广泛关注,但《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》研究揭示了其局限性。GSM8K数据集作为衡量LLMs数学能力的标准,存在“数据污染”和单一性问题。为此,研究者设计了GSM-Symbolic,通过变量和条件生成多样化题目,测试模型的真实推理能力。实验表明,LLMs在不同变体题目上的表现波动较大,尤其在数字变化

2025-05-09 03:24:22 658

原创 小个子大智慧:当15亿参数的“思考者”在AI裁判席上击败百亿级“大块头”

一项最新研究表明,一个仅有15亿参数的AI推理模型DeepSeek-R1在充当复杂任务“鉴别器”时,其表现超越了参数量高达130亿的非推理模型。研究采用“生成者-鉴别者”框架,在“文本到SQL”任务中,DeepSeek-R1通过思维链技术进行结构化推理,展现出卓越的鉴别能力。实验结果显示,DeepSeek-R1在分类F1分数和首位命中率等指标上均优于大多数非推理模型,甚至在端到端评估中促成的SQL执行准确率超过了130亿参数的CodeLlama-13B。这一发现挑战了传统上以参数规模衡量AI能力的观念,为未

2025-05-08 21:48:35 752

原创 搜神记新编:AI大模型的“无网”进化论——ZeroSearch深度解析

大型语言模型(LLMs)在人工智能领域展现出卓越的才华,但其知识体系存在时效性和真实性的瓶颈,制约了实际应用的可靠性。为弥补这一短板,研究者探索了检索增强生成(RAG)等技术,但面临高昂成本和噪声干扰的挑战。阿里巴巴通义实验室提出创新解决方案ZeroSearch,通过训练一个“模拟搜索引擎LLM”为学员LLM提供模拟搜索环境,摆脱对商业搜索引擎API的依赖,并精准调控训练数据质量。ZeroSearch框架包括监督微调和强化学习两个阶段,通过精心设计的提示和优化目标,训练学员LLM在模拟环境中高效检索信息并找

2025-05-08 21:12:47 1222

原创 智能体创世纪:Cooragent 如何用“一句话”开启你的 AI 协作时代

从最初对通用人工智能(AGI)的朦胧憧憬,到如今Cooragent框架的惊艳亮相,我们正亲眼见证着智能体技术从遥不可及的实验室走向大众的关键一步。清华大学LeapLab团队以其深厚的技术积淀和前瞻的开源精神,为我们献上了一份厚礼。它用**“一句话生成智能体”**的魔法,让我们摆脱了对繁琐Prompt和复杂代码的依赖,使得AI的创造权真正掌握在了每一个用户手中。它以和两大模式为双翼,赋予了智能体独立思考和团队协作的强大能力,能够从容应对从简单查询到复杂项目策划的各种挑战。它坚持本地化部署。

2025-05-08 07:52:43 947

原创 AI 推理风暴:Llama-Nemotron 家族的崛起与开放纪元

正如宇宙的演化充满了令人惊叹的爆发与创造,人工智能领域也正经历着一场深刻的变革。近期,一个名为 Llama-Nemotron 的新型模型家族横空出世,它们不仅在推理能力上展现出卓越的性能,更在运行效率和开放性上树立了新的标杆。本文将带您深入探索 Llama-Nemotron 的奥秘,从其独特的训练心法到革命性的动态推理开关,共同见证这场由 Llama-Nemotron 引领的 AI 推理新浪潮。

2025-05-07 00:00:00 978

原创 从语音到文本:让机器听懂你的英语水平

想象一下,你正在参加一场英语口语考试,面对的不是严肃的考官,而是一个聪明的“机器人考官”。它不仅能听懂你说的每一个单词,还能分析你的语音语调、流利程度,甚至从你的对话中判断你的英语水平。这不是科幻电影的桥段,而是深度学习技术在第二语言(L2)英语能力评估领域的最新突破。一项由加拿大和美国研究团队合作完成的研究,正在用卷积神经网络(CNN)、ResNet、wav2vec 2.0 和 BERT 等尖端模型,重新定义自动化语言评估的边界。

2025-05-06 21:00:00 28

原创 卡农之音:解锁语言模型智慧的Canon层奥秘

Canon层如同一首智慧的卡农曲,在语言模型的架构中回响。它以轻量级的水平信息流,点亮了推理深度、广度和知识操控的火花。从Transformer到GLA,再到Mamba2,Canon层以其灵活性和高效性,重新定义了模型设计的边界。未来,这首卡农曲或许将引领我们迈向通用人工智能的巅峰。让我们倾听这旋律,期待智慧的下一个乐章!

2025-05-06 20:00:00 115

原创 探索代码的魔法:从一行指令到智能世界的构建

在数字时代的浪潮中,代码如同魔法咒语,驱动着从手机屏幕到星际探测器的万物互联。一行简单的指令,如何演变为改变世界的智能系统?让我们跟随 OpenHands 的脚步,走进代码的奇幻世界,揭开它如何以开源之力点燃创新的火花。

2025-05-03 21:32:30 646

原创 数学的魔法阶梯:DeepSeek-Prover-V2如何点亮定理证明的星空

DeepSeek-Prover-V2不仅是一款模型,更是一场数学与人工智能的交响乐。它通过递归子目标分解、冷启动数据合成、强化学习、课程学习和双模态证明设计,将自然语言的直觉与形式化证明的严谨性融为一体。无论是MiniF2F的88.9%通过率,还是PutnamBench的49个解决题目,亦或是ProverBench的6个AIME问题,这款模型都在向我们展示:AI不仅能“计算”,还能“思考”。就像伽利略用望远镜发现了木星的卫星,DeepSeek-Prover-V2为我们打开了一扇通往数学新世界的大门。

2025-05-02 04:18:25 470 1

原创 AI 数学家的诞生:DeepSeek-Prover-V2 的证明之旅

在人工智能(AI)的浪潮席卷全球之际,大型语言模型(LLMs)展现出的推理能力,尤其是在数学问题解决方面,已经彻底改变了许多领域 (DeepSeek-AI, 2025)。想象一下,AI 不仅能理解复杂的数学题目,还能像人类数学家一样,一步步推导出严谨的证明过程。这听起来像是科幻小说,但 DeepSeek-AI 团队带来的 DeepSeek-Prover-V2,正让这一梦想逼近现实。然而,从 LLM 擅长的、充满启发式和直觉的自然语言推理,跨越到形式化定理证明那如同精密仪器的逻辑世界,并非易事。

2025-05-02 04:04:56 737

原创 令牌之舞:自回归模型编织超高分辨率图像的简洁之道

自回归(AR)模型在语言生成领域成就斐然,但其在图像合成上的应用常受限于高昂的计算成本和分辨率瓶颈,与扩散模型相比竞争力不足。核心挑战在于处理海量图像令牌。我们提出。

2025-05-01 23:29:54 950

FOUNDATION AGENTS的进展与挑战 从脑启发智能到进化、协作和安全的系统 ### 人工智能大型语言模型驱动的智能体模块化架构及其安全性和进化机制综述

内容概要:本文是一篇关于智能体(agents)的综述,探讨了从脑启发智能到进化、协作和安全系统的进展与挑战。文章首先介绍了智能体的模块化设计,涵盖认知、感知、行动、记忆、世界建模、情感、目标和奖励等核心组件,强调了这些模块与人类大脑功能的相似性。接下来,文章探讨了智能体的自我增强机制,包括自适应学习、反馈驱动的改进和持续知识集成,以适应动态环境。随后,文章讨论了多智能体系统的协作与进化,强调了集体智慧和适应性决策的重要性。最后,文章详细分析了构建安全和有益的AI系统的必要性,提出了内在和外在安全威胁的缓解策略。文章还探讨了未来的研究方向,包括多模态感知、长上下文建模、幻觉缓解策略等。 适用人群:本文适合研究人员、学生、政策制定者和行业从业者,尤其是对AI智能体、大型语言模型(LLMs)及其应用感兴趣的读者,以及对未来社会中人类与AI共存感兴趣的群体。 使用场景及目标:①理解智能体的模块化设计和其与人类认知的相似性;②学习智能体的自我增强机制和持续学习策略;③探讨多智能体系统的协作模式和集体智慧;④掌握构建安全、有保障和有益的AI系统的策略和技术。 其他说明:本文不仅提供了关于智能体的全面概述,还鼓励读者提出新问题并探索这一领域的研究空白。文章强调了智能体设计不仅要追求强大和高效,还要具备适应性、伦理性和与人类社会的深度一致性。通过综合不同学科的见解,本文为智能体的发展提供了一个前瞻性的路线图。

2025-04-09

Qwen2.5-Omni 论文Word格式

Qwen2.5-Omni 论文Word格式

2025-03-27

不要再过度思考了:一项关于 对大型语言模型的有效推理

不要再过度思考了:一项关于 对大型语言模型的有效推理

2025-03-23

《从塔楼到尖顶:一次语音魔法的奇幻旅程》

当科技与语言交相辉映,当文本与语音在大语言模型中共舞,我们便迎来了一个全新的时代。本文带您走进SPIRE的世界——一个从纯文本LLM(大语言模型)进化而来的多模态奇迹,通过引入离散语音单元(DSU),使得模型不仅精通翻译,更能准确识别和转换语音。下面,让我们用轻松幽默的笔触来细诉这一激动人心的旅程,探索这座由TOWER到SPIRE的高塔构筑,如何在语音与文本间架起一座坚实的桥梁。

2025-03-14

TokenButler- Token Importance is Predictable.docx

大型语言模型(LLMs)依赖于键值(KV)缓存来存储标记历史,从而实现标记的有效解码。随着KV缓存的增长,它成为主要的内存和计算瓶颈。然而,有机会缓解这一瓶颈,特别是因为先前的研究表明,只有很小一部分标记在每个解码步骤中都有意义地贡献。寻找这些关键标记的主要挑战在于它们是动态的,并且严重依赖于输入查询。现有的方法要么冒着质量风险永久驱逐标记,要么保留完整的KV缓存,但在生成时依赖于检索标记块(页面),在密集、内容丰富的任务中失败。此外,许多现有的KV缓存稀疏方法依赖于对标记重要性的不准确代理。为了解决这些限制,我们引入了TokenButler,这是一个高粒度、查询感知的预测器,它学会了识别这些关键标记。通过训练一个轻量级预测器,其参数开销不到1.2%,TokenButler根据标记的上下文预测重要性进行优先排序。这提高了困惑度和下游准确性,相对于估计标记重要性的最新方法提高了超过8%。我们在一个新颖的合成小上下文共指检索任务上评估了TokenButler,展示了接近或达到神谕准确度的性能。

2025-03-11

现有的长文本生成方法主要集中在从短输入生成长文本上,忽略了长输入和长输出任务 这类任务有许多实际应用,但缺乏可用的基准 此外,随着输入长度的增加,现有方法不可避免地会遇到“中间丢失”现象

现有的长文本生成方法主要集中在从短输入生成长文本上,忽略了长输入和长输出任务。这类任务有许多实际应用,但缺乏可用的基准。此外,随着输入长度的增加,现有方法不可避免地会遇到“中间丢失”现象。在本文中,我们首先介绍了一个长输入和长输出基准(LONGINOUTBENCH),包括一个合成数据集和一个全面的评估框架,解决了缺失基准的挑战。然后我们开发了检索增强型长文本写手(RALWRITER),它检索并重述了重要但被忽视的内容,通过构建明确的提示来缓解“中间丢失”问题。最后我们使用提出的LONGINOUTBENCH来评估我们的RALWRITER与可比基线,结果证明了我们方法的有效性。我们的代码已在 https://github.com/OnlyAR/RAL-Writer 发布。

2025-03-11

论文译文:LLM Maybe LongLM: SelfExtend LLM Context Window Without Tun

论文译文:LLM Maybe LongLM: SelfExtend LLM Context Window Without Tun

2024-07-10

巨型语言模型的 8 位量化:LLM.int8() 中文版论文

LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale (Dettmers et al., 2022) 中文版论文

2024-06-12

LLM+Mamba具有选择性状态空间的线性时间序列建模

Mamba具有选择性状态空间的线性时间序列建模 论文中文版

2024-01-01

Meta的Pearl强化学习库入门(中文版).pdf

帮您快速入门Pearl强化学习库。

2023-12-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除