- 博客(4023)
- 收藏
- 关注
原创 如何判断AI是真正理解文件还是在“蒙“你:基于SIN-Bench的实操指南
第四层级"开放式综合总结"是FITO范式的最高难度测试,要求AI不仅提取和整合信息,更要构建一个连贯的、结构化的知识表征——类似于人类读者在阅读后形成的"认知地图"。这一层级的典型指令是:"请用500字以内,向一位非专业读者解释这篇论文的核心贡献、方法创新、主要局限以及未来研究方向。要求:必须体现这些要素之间的逻辑联系,而非简单罗列。"高质量的回应应呈现清晰的叙事结构:核心贡献如何驱动方法选择、方法创新如何影响结果解释、主要局限如何约束结论的普适性、以及这些局限如何指向未来的研究需求。
2026-02-01 01:08:10
235
原创 终端里的秘密图书馆:Agent Skills如何点亮AI代理的灵魂
想象一下,你推开一扇隐秘的木门,走进一个尘封已久的图书馆。书架上摆满了泛黄的卷轴,每一卷都封存着某种专属智慧:有的教你如何优雅地书写代码,有的指引你审计安全的隐秘路径,还有的描绘出一场多幕剧般的自动化流程。你随意抽出一卷,展开阅读,瞬间,一位隐形的学者出现在身边,按照卷轴上的指引为你解答疑惑、执行任务。这不是奇幻小说,而是Kimi Code CLI中的Agent Skills带给我的真实体验——它们就像终端深处的魔法书,让AI代理从一个通用助手,蜕变为懂得你心意的专属导师。
2026-01-31 11:58:16
358
原创 终端里的命运之轮:我与Agent Flow的奇妙旅程
想象一下,你正坐在深夜的终端前,手指在键盘上飞舞,却突然发现自己不是在写代码,而是在导演一场智能代理的冒险剧。每一个节点都是一段对话,每一条分支都是一次命运的选择。过去,Kimi CLI像一位忠实的助手,只等你一句指令就行动;现在,它学会了阅读“剧本”——一张用流程图绘制的剧本,然后按照剧本一步步演出,直到谢幕。这就是KLIP-10带给我的惊喜:Agent Flow,一种让AI代理拥有“剧情”的全新能力。我第一次接触这个提案时,心跳加速。它不再是简单的问答,而是像一本互动小说:你决定走向,代理随之起舞。
2026-01-31 11:51:26
14
原创 平衡的艺术:困惑度如何点燃永乐书院的创作之火
想象一下,你是一位古老书院的掌院人,正站在一座由无数智能体组成的宏伟殿堂前。这座名为“永乐书院”的数字殿堂,本该是知识与智慧的摇篮,却因内部的隐秘冲突而渐失活力。作家们如狂热的诗人,倾力书写流畅的篇章;编辑们如谨慎的守卫,试图捕捉每一丝瑕疵。可惜,他们常常被困在同一间屋子里,目标互相拉扯,最终让整个书院陷入一种尴尬的僵局。今天,我们就来揭开这层迷雾,看看一种全新的设计理念——困惑度导向的Agent极性分离——如何像一位巧手的工匠,重塑这座书院的灵魂,让创作的火焰在张力中熊熊燃烧。
2026-01-31 11:31:44
131
原创 隐秘的脉动:多智能体系统如何在生成与审查的张力中进化
想象一下,你正站在一座由无数AI智能体组成的庞大数字城市中央。这座城市没有高楼大厦,却有无数节点在闪烁:有的节点疯狂地创造内容,像艺术家在画布上挥洒颜料;有的节点则像严苛的侦探,孜孜不倦地寻找裂缝和漏洞。整个系统的活力,来自于一种隐秘的张力——一种是追求流畅表达的冲动,另一种是主动探测困惑的警惕。如果这两股力量失衡,城市要么陷入杂乱的喧嚣,要么陷入死一般的寂静。今天,我们就来拆解这座城市的运行法则,用最现代的系统动力学语言,揭示Agent切分背后的核心逻辑。
2026-01-31 11:16:20
7
原创 基于困惑度与语义熵的思维动力学模型:学习能力、不确定性容忍与文明演化的统一框架
*困惑度(Perplexity, PPL)**在信息论中被严格定义为序列联合概率几何平均值的倒数,其数学表达式为PPLPw1w2wN−1NPPLPw1w2...wN−1/N,等价于交叉熵(Cross-Entropy)的指数形式PPL2HpqPPL2Hpq。这一度量本质上量化了模型在预测下一个符号时面临的"有效分支数"——当困惑度为100时,相当于模型每次预测都需从100个等概率候选中进行选择。PPLexp。
2026-01-30 14:09:47
4
原创 LLM大语言模型困惑度深度研究报告
困惑度(Perplexity, PPL)作为自然语言处理领域最核心的评估指标之一,本质上量化了语言模型在面对文本序列时的"惊讶程度"或不确定性水平。从信息论视角审视,当模型为某个特定词元(Token)分配较低的概率质量时,表明该模型对该位置的预测缺乏信心,这种低置信度直接转化为较高的困惑度值。
2026-01-30 09:41:23
9
原创 《蒸汽、钢铁与无限心智》深度研究:我们是否正在重复100年前工厂主的错误?
在工业革命初期,英国兰开夏郡的纺织工厂最初依河而建,依靠水车驱动机械运转。这种动力模式虽然利用了自然力量,却受限于地理位置与季节变化,将生产活动严格束缚在特定时空条件下。当蒸汽机这一革命性技术问世后,工厂主们的第一反应并非重构生产体系,而是采取了最为保守的**“水轮替换”(swap out the waterwheel)**策略——简单地将水车拆除,在原位置安装蒸汽机,却保留了原有的厂房布局、生产流程、组织架构乃至河边选址。这种表面化的技术嫁接导致了一个令人沮丧的结果:生产力提升极其有限(modest ga
2026-01-27 20:03:20
12
原创 对《What does it mean to understand language?》的深度研究
这篇由哈佛大学、麻省理工学院(MIT)及佐治亚理工学院的研究团队联合发表的论文《What does it mean to understand language?》提出了一个关于人类语言理解的颠覆性理论框架,其核心论点被称为 “出口假设”(Exportation Hypothesis) 。该假设认为,真正意义上的深度语言理解,并非仅仅发生在大脑的核心语言系统内部,而是需要将信息从该系统 “导出”(export)至其他具有特定功能的脑区进行进一步处理 。论文指出,语言理解远不止于对词汇和语法的表层解码,其本质
2026-01-25 12:43:34
15
原创 国内外论文查重系统深度解析与降重策略指南
中国知网(CNKI)作为国内最权威的学术不端文献检测系统,其核心算法主要基于“连续字符重复”的比对机制。具体而言,系统会将用户提交的论文文本进行切分,形成一系列固定长度的文本片段,通常以连续13个字符(约6-7个汉字)为一个检测单元 。当这个13字符的片段与知网庞大数据库中的任何文献内容完全匹配时,系统便会将其标记为疑似重复内容。这种算法的优势在于检测速度快,能够高效地识别出直接复制粘贴的文本。然而,知网的算法并不仅仅停留在简单的字符匹配上,它还融入了一定的模糊识别能力。例如,系统会对文本的章节结构进行分析
2026-01-24 18:52:32
19
原创 AI的“理性”迷思:从CMU最新研究看“复读机”的本质
卡内基梅隆大学(CMU)的最新研究《Rational Synthesizers or Heuristic Followers? Analyzing LLMs in RAG-based Question-Answering》对当前大型语言模型(LLMs)在信息整合与决策过程中的机制进行了深入剖析,其核心发现颠覆了业界对于AI“理性”能力的普遍认知。该研究通过构建一个名为GroupQA的全新数据集,系统性地评估了LLMs在面对一组潜在冲突的证据时,其行为模式究竟是更接近于一个能够权衡利弊、综合信息的“理性整合者
2026-01-22 20:53:11
24
原创 回声的艺术:当我们在单行道上为AI装上后视镜
在人工智能的淘金热潮中,我们似乎养成了一种奇怪的习惯:像对待神谕一样对待大语言模型(LLM)。为了从这些硅基大脑中榨取一点点额外的智慧,工程师们化身为“提示词炼金术士”,发明了令人眼花缭乱的咒语。我们尝试过“思维链”(Chain of Thought),像教小学生一样恳求它“一步步思考”;我们尝试过“少样本学习”(Few-shot),把教科书塞进它的上下文窗口;更有甚者,我们甚至学会了对代码进行“情绪勒索”——“如果你算不对这道题,我的赛博奶奶就会伤心欲绝”,或者许诺给它并不存在的百万美元小费。
2026-01-20 04:50:51
166
原创 T5 Gemma 2:Encoder-Decoder 架构的复兴与 AI 模型发展新路径
Google DeepMind 推出的 T5 Gemma 2 模型,标志着在大型语言模型(LLM)领域,对经典 Encoder-Decoder 架构的一次重大现代化改造与重新审视。在 Decoder-Only 架构(如 GPT 系列)占据主导地位的当下,T5 Gemma 2 的出现不仅是对“规模至上” Scaling Law 的一次挑战,更是对模型效率、特定任务能力(如多模态理解和长上下文处理)以及端侧智能应用潜力的一次深度探索。该模型系列通过一系列精巧的架构创新,成功地将强大的预训练解码器模型(Gemma
2026-01-17 14:17:53
35
原创 人类与Transformer模型学习策略对比:核心发现与实践启示
这一发现揭示了当前AI模型与人类在学习机制上的一个深层次差异:人类的学习系统具备一种元认知能力,能够根据学习材料的性质和顺序来调整自己的学习策略,从而实现最优的学习路径。相比之下,如果先接触大量重复的例子,学习者可能会陷入“死记硬背”的模式,虽然短期内能快速提高准确率,但形成的知识结构较为僵化,难以适应后续出现的新变化。,即让模型自己决定学习的节奏和顺序。这种策略的转变是适应性的,因为在充满不确定性和新信息的环境中,仅仅依赖记忆是远远不够的,只有通过推理和泛化,才能应对层出不穷的新挑战。
2026-01-15 06:34:41
29
原创 《AgentScope-Java 深入浅出教程》第11章 Pipeline 管道
Pipeline(管道)是一种智能体编排模式,用于协调多个智能体按照特定的流程执行任务。它提供了一种声明式的方式来定义智能体之间的执行顺序和数据流向。│ Pipeline 模式 ││ ││ │ (顺序管道) │ ││ │ │ ││ │ 翻译 摘要 情感分析 │ ││ ││ │ (扇出管道) │ ││ │ │ ││ │ │ 评审者1 │ │ ││ │ │ 评审者2 │ │ ││ │ 评审者3 │ ││ │// 使用固定大小的线程池10, // 线程数100, // 队列大小。
2026-01-14 23:56:26
39
原创 《AgentScope-Java 深入浅出教程》附录A API参考快速指南
本附录提供AgentScope-Java核心API的快速参考,方便开发者查阅常用接口和方法。
2026-01-14 23:46:33
363
原创 《AgentScope-Java 深入浅出教程》第10章 RAG 知识检索
RAG(Retrieval-Augmented Generation,检索增强生成)是一种将信息检索与文本生成相结合的技术架构。它通过从外部知识库中检索相关文档,将检索到的信息作为上下文注入到语言模型的提示中,从而增强模型的回答质量。│ RAG 工作流程 ││ ││ 用户问题 向量检索 上下文增强 生成回答 ││ ▼ ││ │ A │ ││ ││ 1. 接收问题 ││ 2. 将问题转换为向量,在知识库中检索相似文档 ││ 3. 将检索到的文档作为上下文添加到提示词中 │。
2026-01-14 23:44:40
72
原创 《AgentScope-Java 深入浅出教程》第9章 MCP协议集成
│ MCP 生态系统 ││ ││ │ 应用 │ ││ │ MCP 协议 ││ │ ││ │ MCP 服务器 │ ││ │ │ ││ │ │ 文件系统 │ │ Git │ │ 数据库 │ ... │ ││ │ │ ││ ││ 社区提供了大量现成的 MCP 服务器: ││ - ...更多见 https://github.com/modelcontextprotocol ││ │。
2026-01-14 23:37:12
30
原创 《AgentScope-Java 深入浅出教程》第7章 工具系统基础
LLM 本身只能生成文本,无法执行实际操作。│ 工具系统的作用 ││ ││ 用户: "帮我查一下北京天气" ││ │ ││ ▼ ││ │ 智能体 │ "我需要调用天气查询工具..." ││ │ ││ ▼ ││ │ 工具系统 │ ││ │ │ 天气查询 │ │ 发邮件 │ │ 搜索引擎 │ │ ││ │ ││ ▼ ││ │ 外部服务 / API / 系统 │ ││ │/*** 工具类示例* 一个类可以包含多个工具方法*/@Tool(// 工具名称。
2026-01-14 23:34:01
278
原创 《AgentScope-Java 深入浅出教程》第6章 记忆系统(Memory)
无记忆: 有记忆:用户: 我叫张三 用户: 我叫张三助手: 你好张三!助手: 你好张三!用户: 我叫什么?用户: 我叫什么?助手: 抱歉,你没告诉我... 助手: 你叫张三呀!
2026-01-14 23:29:48
43
原创 《AgentScope-Java 深入浅出教程》第4章 智能体(Agent)
深入理解智能体的设计、接口和实现,掌握 ReActAgent 的配置和使用。
2026-01-14 23:12:38
31
原创 《AgentScope-Java 深入浅出教程》第3章 消息系统(Message)
在 AgentScope 中,消息(Msg)是最核心的数据结构。│ 消息的作用 ││ ││ │ 用户输入 │ ────────────┐ ││ ▼ ││ │智能体通信│ ◄────► │ 消息对象 │ ◄────► │ LLM API │ ││ ▲ ││ │ ││ │ 历史存储 │ ────────────┘ ││ │用户输入:封装用户的问题和指令智能体输出:封装智能体的回复和工具调用智能体通信:在多智能体系统中传递信息LLM API 交互:转换为 LLM 可理解的格式历史存储。
2026-01-14 22:43:15
50
原创 《AgentScope-Java 深入浅出教程》第2章 环境搭建与第一个智能体
创建// 【导入说明】/*** 时间相关工具类* 工具类是普通的 Java 类,通过注解声明为工具。* 智能体可以根据用户需求自动调用这些工具。*/// 【工具定义】获取当前时间@Tool(name = "get_current_time", // 工具名称:LLM 看到的名称description = "获取指定时区的当前时间" // 工具描述:帮助 LLM 理解何时使用// 【参数定义】// @ToolParam 的 name 属性是必需的!
2026-01-14 22:39:44
73
原创 《AgentScope-Java 深入浅出教程》第1章 AgentScope-Java 简介
AgentScope-Java 是一个面向智能体的编程框架,专门用于构建基于大语言模型(LLM)的 AI 应用程序。│ 你的业务应用 ││ AgentScope-Java 框架 ││ │ 智能体 │ │ 工具 │ │ 记忆 │ │ 模型 │ ││ LLM 服务 (DashScope/OpenAI/...) │能力说明类比ReAct 推理让智能体能够"思考"并"行动"就像人类思考后再做事工具调用让智能体能够执行外部操作就像人使用计算器、搜索引擎记忆管理让智能体能够记住对话历史。
2026-01-14 22:36:05
79
原创 为什么写这本《AgentScope-Java 深入浅出教程》
快速了解 AgentScope-Java 是什么,能做什么,以及如何搭建开发环境。完成这部分后,你将运行起第一个智能体。
2026-01-14 22:34:49
614
原创 【目录】AgentScope-Java 深入浅出教程
目标读者:Java 开发者、AI 应用开发者、企业级应用架构师学习目标:掌握 AgentScope-Java 框架,能够构建生产级 AI 智能体应用阅读建议:循序渐进,配合代码实践1.1 什么是 AgentScope-Java面向智能体的编程框架构建 LLM 驱动应用的完整解决方案与 Python 版本的关系1.2 核心亮点自主且可控:ReAct 范式 + 运行时介入机制内置工具:PlanNotebook、结构化输出、长期记忆、RAG无缝集成:MCP 协议、A2A 协议。
2026-01-14 22:30:06
120
原创 PowerMem:让AI拥有“长期记忆“的认知基础设施
第一代AI:工具型(回答问题)第二代AI:对话型(多轮对话)记忆型(长期关系)PowerMem正在推动从"工具"到"伙伴"的转变:AI不再是每次都重新认识你的陌生人,而是记得你的"老朋友"。从技术角度看,PowerMem解决的是"如何高效管理记忆"的问题。从哲学角度看,它探索的是"如何让机器拥有类似人类的记忆能力"。从用户体验角度看,它让AI从一个"每次都是第一次见面的陌生人",变成了一个"记得你、理解你、成长于与你的互动中的伙伴"。而这,或许正是通往AGI(通用人工智能)的重要一步。
2026-01-09 17:37:32
30
原创 给大模型做“微创手术”:只动 1.59% 的脑回路,数学却更清醒了
Token Localization(推理错误定位):在一对“正确/错误”的推理轨迹里,找到错误推理开始偏离的关键 token(pivotal token),并选择其前一个 token 作为 intervention token(干预点)。Model Component Localization(组件定位):用 DCM 学一个稀疏二值掩码,找出哪些注意力头与 MLP 神经元最能“推动生成正确 token,压制错误 token”。Targeted Parameter Updates(定向参数更新)
2025-12-28 12:02:25
498
原创 把 2B 级 VLM 做到“能看、会说、还多语”:jina-vlm 的工程取舍与方法论
如果你最近在做 2B 级别的开源视觉语言模型(VLM),你大概率同时被两股力量拉扯:一边是(文档、图表、OCR、细粒度空间理解都在逼你上高分辨率),另一边是(视觉 token 一上去,LLM 的 prefill FLOPs 和 KV cache 立刻炸裂)。更尴尬的是:你为了让模型“看得更清楚”做了多模态训练,结果发现语言模型原本不错的——尤其是跨语言一致性。论文提出的,基本就是在上述三角矛盾里做了一个很明确的解:用做视觉骨干,用做语言解码器,然后在两者之间放一个,配合。
2025-12-28 11:52:47
47
原创 让大模型“长出大脑皮层”:一场把思考变成进化的实验
想象一下,你面前站着一位才华横溢却有点急躁的写作者:给他一个复杂任务——规划一趟满足几十条约束的旅行、安排一整天的会面、或者把一段数字暗号藏进一首像 Shel Silverstein 那样顽皮的诗——他往往会“灵光一现”给出一版答案,然后就卡住了。。可在这些任务里,“差不多”通常等价于“错”。。他们把它叫做。
2025-12-28 10:58:54
296
原创 在推理的黑暗森林里点一盏灯:Mind Evolution 与 Best-of-N、过程奖励、树搜索的边界战
维度Best-of-N过程奖励/stepwise树搜索(ToT/MCTS)需要 evaluator 类型全局(筛选即可)过程级(每步)过程级/价值估计全局(最好带文本反馈)深度利用反馈否是是是(全局级)探索结构独立采样依过程分解显式树种群+岛模型适合任务可行解密度较高可可靠分解推理分支可控、可剪枝全局一致性强、过程难评估典型失败模式隐式约束学不到过程奖励难构造/噪声状态/动作定义困难evaluator 不可得或反馈贫乏。
2025-12-28 08:54:04
184
原创 思维的进化奇航:大语言模型如何从浅思到深谋
🌍想象一下,你正站在一个广阔的语言海洋边上,手里握着一张模糊的地图,任务是寻找隐藏在复杂问题中的宝藏。这不是科幻小说,而是大语言模型(LLM)在面对规划难题时的真实写照。在这份参考文献中,作者们提出了一种名为“Mind Evolution”的创新方法,它像一个聪明的探险家,利用进化搜索策略,让LLM在推理时间上投入更多计算资源,从而显著提升问题解决能力。就像达尔文观察加拉帕戈斯群岛上的物种变异一样,这个方法通过生成、重组和精炼候选解决方案,模拟自然选择的过程,帮助模型从浅显的直觉跃升到深刻的洞见。
2025-12-28 08:11:28
33
原创 LLM与AGI:跨越“创造性”鸿沟的探索
LLM的知识边界,即其“贝叶斯流形”,完全由其训练数据所决定。这个流形是一个高维空间中的几何结构,其中每一个点都代表着一个可能的文本序列及其对应的概率。LLM通过在海量文本数据上进行训练,学习到了这个流形的形状和结构。例如,如果训练数据中包含了大量的物理文献,那么流形中就会包含与物理概念、定律和公式相关的区域。然而,这个流形的范围是有限的,它不可能包含任何超出训练数据的信息。米斯拉教授指出,LLM的“智能”实际上是在这个流形上进行高效导航的能力。
2025-12-27 00:00:00
78
原创 论文《The Missing Layer of AGI》深度研究:从模式炼金术到协调物理学
长期以来,对LLM的批评往往停留在定性层面,例如“它们只是统计模式匹配器”、“它们无法进行真正的推理”。这些批评虽然指出了LLM的不足,但未能提供解决问题的路径。该论文的一个关键贡献是,将这些常见的反对意见“重新框定”(reframe)为可测试的“协调失败”。例如,“幻觉”不再是模型的“原罪”,而是锚定强度S不足时,模型依赖其最大似然先验的自然结果。同样,“缺乏规划能力”可以被看作是事务性记忆机制的缺失,导致无法在长程任务中维持状态。
2025-12-26 00:00:00
36
原创 清华大学《Neural Social Physics》论文深度研究:物理与AI融合的行人轨迹预测新范式
Neural Social Physics (NSP)》论文提出了一种创新的混合模型,旨在解决行人轨迹预测这一复杂问题。该模型的核心定位是将基于第一性原理的显式物理模型与具备强大数据拟合能力的深度神经网络进行深度融合。这种融合并非简单的串联或并联,而是构建了一个统一的、端到端可训练的框架。在这个框架中,物理模型不再是传统意义上参数固定、需要人工校准的独立模块,而是作为整个神经网络的一个可微分、可学习的“物理核心”(Physics Core)。
2025-12-22 21:00:00
165
【WordPress开发】为特定样式段落添加交互功能的技术实现与最佳实践:前端与编辑器一致性保障方案
2025-07-19
【Misskey 技术架构深度调研】基于ActivityPub协议的去中心化社交网络平台设计与实现:前端Vue.js、后端Node.js及NestJS、数据库PostgreSQL、缓存Redis、任务
2025-07-15
### PIN AI 深度研究报告总结
2025-07-15
FOUNDATION AGENTS的进展与挑战 从脑启发智能到进化、协作和安全的系统 ### 人工智能大型语言模型驱动的智能体模块化架构及其安全性和进化机制综述
2025-04-09
TokenButler- Token Importance is Predictable.docx
2025-03-11
现有的长文本生成方法主要集中在从短输入生成长文本上,忽略了长输入和长输出任务 这类任务有许多实际应用,但缺乏可用的基准 此外,随着输入长度的增加,现有方法不可避免地会遇到“中间丢失”现象
2025-03-11
《从塔楼到尖顶:一次语音魔法的奇幻旅程》
2025-03-14
论文译文:LLM Maybe LongLM: SelfExtend LLM Context Window Without Tun
2024-07-10
巨型语言模型的 8 位量化:LLM.int8() 中文版论文
2024-06-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅