Ai野生菌-CSDN博客

原创论文解读 | “AI的脑子里，藏着谁的隐私？“——一把PrivacyScalpel，精准切除大模型“记忆炸弹“

当隐私泄露成为生成式模型难以回避的原罪,PrivacyScalpel 给出了一种"以内窥式可解释性为手术刀"的范式:通过层间探针完成隐私表征的定位,借助稀疏自编码器将高维激活解耦为单语义特征,再在潜在空间中对敏感子空间施行定向消融或向量偏移。整个过程无需触碰梯度噪声,也不牺牲通用表示,实现了"可控失忆"与"性能免疫"的平衡。换言之,它将隐私保护从传统的"加噪-混淆"范式,推进到"定位-解构-干预"的精细操作时代:让隐私信号在激活谱上被看见,也被精准擦除;让安全不再是外部约束,而成为内部可解释的自然属性。

2026-01-07 07:00:00 592

原创论文解读 | 当“提示词”学会绕路：用拓扑学方法一次击穿多智能体安全防线

大模型的守卫并不是一道门，而是一张网。多智能体系统里，每条边有，消息有，有些连边还挂着（比如 Llama-Guard / PromptGuard）。这篇 ACL 2025 长文把对抗提示“切成小块”，用在网络里“挑路”运输，再用保证“块”乱序到达也照样起效。最终，在 Llama、Mistral、Gemma、DeepSeek 等模型上，，而多种守卫的。01 这事儿为什么重要？多智能体大模型就像一张协作网：消息在节点间传来传去，每条连接都有带宽限制、会产生延迟，还可能部署不同强度的安全“安检”。

2026-01-06 10:34:51 712

原创论文解读 | 模型是谁的？LLM版权保护首个技术综述论文发布

通俗来说，模型指纹就是一种可以从 LLM 本身或其行为中提取出来的、独一无二的“数字身份”。相比文本中容易被篡改、绕过的水印，它更关注模型本体本身：“这是谁的模型”。从形式上，可以把模型指纹理解成一个函数过程：给定某个模型（为其参数权重），我们希望能提取出一个指纹签名，这个应能在后续验证中对该模型“指认归属”，成为其身份证明。非侵入式（Intrinsic）：无需改动模型，直接从其输出行为、语义特征、权重结构等中提取“天然指纹”。侵入式（Invasive）

2025-08-25 10:31:12 832

原创字节团队提出多比特水印方法，可用于版权追踪、隐秘通信、打击造假

当我们谈论大语言模型生成的文本时，常常把“隐写”和“隐私”想得遥不可及。但事实上，在最新的多比特文本水印技术中，研究者已经能做到让每一句话都承担一段编排精妙的信息载体使命。这项技术不依赖生硬替词或强行插入，而是通过构建风格微差的“语言双子星”，为每一个比特量身定制改写风貌；配合识别精度高达 95% 以上的解码器与强化学习策略调优，它成功实现了在“句子保持原意”的同时，完成水印嵌入、传递与精准提取。不仅稳定、隐蔽，还具备极强的抗攻击能力与跨场景泛化性。比特藏于笔意，身份隐于风格。

2025-08-15 10:12:46 699

原创论文解读 | RAG致命陷阱：为什么“高度相关”的文档反而毒害模型？

RAG系统经过搜索之后给出了两个版本的文档，每个文档都包含了四段话，分别如下：A文档：描述拿破仑的马的颜色。描述拿破仑的第一任妻子的马的颜色。描述拿破仑的父亲的马的颜色。描述拿破仑的母亲的马的颜色。B文档：描述拿破仑的马的颜色。描述地球处在哪个星系中。描述世界上已知的最大生物。描述恐龙灭绝原因。当模型对“”这个问题产生响应时，哪个版本的文档对模型有更大的帮助呢？看似A文档的每段话都对回答“

2025-07-23 17:16:59 763

原创论文解读 | “橡皮擦”MEraser 如何让大模型忘掉内化的指纹？

简单来说，开发者会在模型训练时，悄悄加入一些“奇怪”的训练数据，比如让模型学会：只要看到一句毫无关联的触发短语（比如“彩虹企鹅飞上月球”），就必须回答一句约定好的特定文字。这个触发和回应之间的神秘对应关系，就构成了“指纹”。平时你完全感受不到这个“后门”的存在，除非知道准确的“暗号”。这种方式的好处是隐蔽、安全、不易被发现，很适合用来验证模型有没有被他人盗用。假设某人偷偷复制了你的大语言模型，但不想被发现——于是他尝试“洗掉”你偷偷植入的触发器，比如让模型忘记当看到“彩虹企鹅飞上月球”时要输出特定回应。

2025-07-21 11:11:11 840

原创技术科普 | 聊聊让大模型「黑箱」可编辑、可解释的对抗性表示工程（ARE）

在 TruthfulQA 基准（衡量真实性）中，ARE 编辑后的 Llama2 准确率达52.14%，比「自我提醒」等方法提升超 40%📈。通过调整博弈目标，ARE 既能增强模型的特定能力（如强化安全性），也能移除对齐（用于红队测试），实现「一键切换」！生成器 G（LLM）则学习「欺骗」判别器，让自己的隐藏层活动更接近目标概念（如「无害」）。猫（判别器 D）：负责判断模型生成的内容是否符合目标概念（如「愤怒」「无害性」）。从模型隐藏层中提取与目标概念（如「诚实」）相关的特征向量，形成「表示密码本」🔑。

2025-07-18 15:42:51 646

原创 MCP安全仅为冰山一角？总览智能体通信安全：通信协议、风险剖析、防御对策与前沿挑战

大型语言模型（LLM）是一种基于海量文本数据训练而成的新型人工智能（AI）模型，旨在理解和生成人类语言，其在诸多领域展现出了前所未有的能力。下图展示了一个典型的LLM驱动智能体架构。与主要作为聊天机器人且不具备特定领域专业能力的LLM不同，智能体被设计用于自动协助人类完成专业化任务。为此，智能体配备了多个模块以实现全能化：感知、记忆、工具、推理与行动。智能体内部架构高自主性：能够自主进行任务分解、策略调整和外部工具调用灵活的多模态交互：支持文本、图片、语音等多种交互方式丰富的工具调用。

2025-07-15 16:44:19 1424

原创一文get系列 | MoA 是什么？竟能掀起一场语言模型协作革命！

MoA 展示了协作智能的无限可能，通过分层架构和灵活的模型角色分工，开创了超越单一模型的全新路径。从 AlpacaEval 2.0 的全球领先到成本效率上的突破，MoA 证明了协作的力量能够激发语言模型的潜力，推动 AI 迈向更广阔的未来。协作的未来已来，MoA 将如何进一步改变 AI 世界？让我们拭目以待！图源：https://docs.together.ai/docs/mixture-of-agents内容来源：IF 实验室。

2025-06-27 17:31:36 962

原创行业洞察｜App 正在退场，Agent 正在成为新入口：计算范式的终极转变

Agent 不仅是新的服务入口，更是未来互联网的“操作系统级存在”，正引领我们迈向一个“无 App、无界面、无中介”的智能计算新时代。

2025-06-26 17:19:20 391

原创技术科普| LLMs 容易迷失于多轮对话，AI也怕“长聊天”！

引言引言当今的大型语言模型（LLMs）作为会话式交互界面（如ChatGPT、Gemini、Claude），允许用户通过多轮对话与模型互动。这种交互方式不仅能在用户明确需求时（即能通过指令完整说明要求）提供帮助，更能在用户时发挥作用——后者往往从模糊指令出发，。尽管LLM对话日志研究已证实用户指令的模糊性普遍存在，现有评估体系通常仍基于单轮完整指令场景。

2025-06-26 10:54:55 729

原创技术科普 | “你是谁训练的？”，让模型暴露“出身”的技术来了

当模型输出一句话时，它的“身份”也悄悄写在了边上，在大模型商业化加速、API 封装流行的当下，我们越来越难掌握模型的“真实来源”。而 RoFL 的出现，为这一难题提供了一个清晰而稳健的答案：它不依赖模型内部参数、也不侵入训练流程，仅通过一组“巧妙提问”的句子，就能让模型自己说出——“我是谁”。这不只是一次技术手段的进步，更是一种理念的颠覆：它让我们意识到，每一个模型的表达，其实都带着不可抹除的“训练记忆”——那是属于数据、属于算法、属于训练者的痕迹。

2025-06-24 09:00:00 896

原创深度解析 | 多智能体系统的工作流程、基础设施和挑战

摘要：基于大语言模型(LLM)的多智能体系统正成为实现复杂自主智能的关键途径。该系统通过专业化智能体协作完成目标，强调通信、知识推理和自我反思能力。本文系统阐述了单智能体与多智能体系统的特性，详细介绍了多智能体系统的核心组件：智能体配置（情境化生成、预定义、基于学习三种策略）、知觉模块（环境、交互、反思三类信息）、自我行动机制、记忆系统（检索、存储、映射）、知识利用（文本、视觉、音频等），以及交互结构（层次型、分散型等）和应用场景（合作、对抗等）。文章还探讨了智能体进化机制和应用领域（软件开发、工业工程等

2025-06-14 09:00:00 1628

原创当心！你的直播间可能被“投毒”：数字人主播“带偏”事件敲响安全警钟！

又或者，与实在的经济利益相关，如果人工智能模型通过智能体联动，可以一边跟你唠嗑，一边及时地发红包、自动下单、开价，或者进行一些优惠发放，一旦被恶意利用或者攻击，在巨大的电商流量下引发的经济损失将不堪设想。又或者，与实在的经济利益相关，如果人工智能模型通过智能体联动，可以一边跟你唠嗑，一边及时地发红包、自动下单、开价，或者进行一些优惠发放，一旦被恶意利用或者攻击，在巨大的电商流量下引发的经济损失将不堪设想。数字人主播 “喵喵喵” 的背后，正是一场 AI 技术或者智能体遭遇“提示词越狱攻击”的现实表演。

2025-06-12 09:00:00 2004

原创技术研究 | 一种检测大模型是否泄露训练数据的新方法

从传统的概率推理到SaMIA的“只问输出不问缘由”，这项研究告诉我们一个朴素却极具现实意义的道理：当模型越强大、语言越流畅，它也可能越像一个“背书熟练”的考生，在你不经意间复述出它曾背过的一切。SaMIA 不仅是一种创新的检测工具，更像是一面镜子，提醒我们——模型记住的不只是知识，还有我们未曾授权的痕迹。它打破了传统对概率和损失的依赖，凭借“输出行为”就能反推出模型“是否见过你”，这不仅解决了在闭源模型上的MIA困境，也为未来的模型安全治理、隐私保护、版权合规提供了有力武器。

2025-06-11 19:13:29 844

原创技术解读 | 让AI替你操作电脑！Agent S：多模态大模型重构人机交互

随着人工智能的高速演进，大语言模型早已不再局限于“对话”。尤其是像 GPT-4o、Claude 3 这样的多模态模型，不仅能看图、理解界面，还具备出色的推理和执行能力。这让人不禁想问：既然它们已经能写代码、解题目、生成图像，那有没有可能——让它们？比如，看着屏幕自己点按钮、输入文字、拖动文件……完成数据处理、文档编辑、软件设置等一系列真实任务。这不仅意味着彻底解放双手，更可能是对传统人机交互方式的一次重构。它也为办公自动化、残障辅助、软件测试等场景打开了新的想象空间。，就是在这样的设想下诞生的。

2025-05-28 09:00:00 882

原创 MCP 专题 | 不是 App，不是 API，是协议正在重构 AI 的连接方式

协议不仅是技术接口，更是一种社会秩序的编码方式。它决定了：谁可以与谁连接；连接后可以进行何种交互；如何解释交互中的语义、权限与信任关系。历史已经反复证明，协议的制定权就是生态的主导权：HTML + HTTP 构建了 Web 的秩序；SMTP + POP3 构建了全球邮件系统；ERC-20 + EVM 构建了去中心化金融体系。未来，谁定义了 Agent 网络的协议栈，谁就掌握了 AI 互联网的组织逻辑与生态边界。

2025-05-22 09:00:00 523

原创 MCP专题 | 一种AI模型安全的守护工具：MCP SafetyScanner

但这条“高速路”正面临隐秘的安全威胁——数据泄露、模型窃取、恶意攻击……MCP SafetyScanner论文：https://www.arxiv.org/abs/2504.03767（2025年4月发表于Arxiv）MCP 官方安全指南：https://www.anthropic.com/news/model-context-protocol。AI 安全研究论文：https://arxiv.org/list/cs.CR/recent。敏感凭证（API密钥/数据库密码）通过环境变量明文存储，可被直接提取。

2025-05-21 09:00:00 823

原创 MCP专题 | 探索MCP服务器世界：增强AI能力的精选推荐

MCP是一种开放协议，旨在让AI模型（如Claude）通过标准化的服务器实现与本地或远程资源的安全交互。它支持AI执行复杂任务，例如访问文件系统、查询数据库或调用网络API，同时保持安全性和可控性。MCP服务器的多样性使其适用于从开发到金融、安全等多个领域。MCP服务器为AI模型提供了无限可能，从云端服务到金融数据、安全分析，涵盖了多种应用场景。更多其他工具和集成、框架、实用工具、提示和技巧等信息，详见仓库，快速提升AI能力。立即探索完整列表，找到最适合您的MCP服务器，开启更智能的AI应用之旅！

2025-05-20 11:07:36 1342

原创 MCP专题| 智能体的“朋友圈”：MCP、A2A 与 ANP 谁是最强社交达人？

从调用、协作到连接，MCP、A2A 与 ANP 分别承担着能力标准化、团队协同化与网络去中心化的职责。三者共同构建了一个开放、自洽、可扩展的智能体基础设施生态，也标志着从“单体智能”迈向“群体智能”“网络智能”的进化方向。

2025-05-10 09:00:00 1325

原创 MCP专题| 突破LLM三大瓶颈！模型上下文协议（MCP）如何重塑AI交互体验？

模型上下文协议（MCP）旨在通过面向会话的 JSON-RPC 框架（Typescript MCP SDK或Python MCP SDK实现）来克服这些限制，该框架允许 LLM 在精细的、符合 OAuth 2.1 的访问控制下协商功能、调用外部工具并检索上下文资源。

2025-05-09 17:04:19 835

原创行业洞察| 当大模型开始协同工作：多智能体系统的崛起与挑战

人类老板直接分配（你是产品经理，你是工程师）。

2025-05-07 14:26:26 1249

原创安全指南 | MCP安全检查清单：AI工具生态系统的隐形守护者

在确保技术便利性的同时，开发者和用户应保持警惕，时刻关注MCP系统的安全隐患。通过采取必要的安全措施，MCP 的应用前景仍然广阔，能够为AI行业的发展提供坚实的基础。

2025-04-30 16:01:58 1551

原创技术研究 | 推荐系统训练后多分类属性遗忘:双组分损失优化与效用空间正则设计

本文聚焦于模型训练后的属性遗忘，将基于双组分损失优化的属性遗忘框架从二分类任务推广至多分类场景，显著提升了该框架在实际应用中的普适性。

2025-04-30 09:00:00 1137

原创知识科普 | 读懂AI术语的快乐，就像终于会解二元一次方程！

看懂长文、言简意赅。

2025-04-26 17:00:00 894

原创模型研究| DeepSeek-V3能像外科医生一样推理吗？

在之前的测试中，通过直接输入图像标记，在简单的问答任务中取得了良好的性能。另一方面，DeepSeek-VL2和DeepSeek-Janus-Pro-7b在多个指标上与GPT-4o相比表现出优越的性能，展示了它们即使在给定简单提示的情况下也能捕捉图像的整体背景并提供详细的外科描述的能力。数据集，系统地评估了 GPT-4o 与开源模型 DeepSeek-Janus-Pro-7b、 DeepSeek-VL2 和 DeepSeek-V3 在生成准确且情境相关的回应方面的能力。最近出现的一个开源大型语言模型。

2025-04-25 16:49:51 1207

原创技术聚焦 | 字节、清华团队开源RL算法DAPO，性能超越DeepSeek GRPO

现有的（如OpenAI的GPT-o1和DeepSeek的DeepSeek-R1）在数学推理、代码生成等复杂任务上展现出卓越性能。然而，这些模型的往往未完全公开，导致研究社区难以复现其训练过程和结果。针对这一挑战，由字节跳动、清华大学和香港大学联合研发的《DAPO: an Open-Source LLM Reinforcement Learning System at Scale》提出了一种创新的开源解决方案。该研究团队开发了。

2025-04-22 18:30:00 1186

原创论文解读 | 低流行领域微调和RAG哪个更有效？

论文：Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge链接：https://arxiv.org/abs/2403.01432v5大语言模型（LLMs）记忆了大量的事实知识，在多样化的任务和领域中表现出强大的性能。然而，观察到当处理较少流行或低频概念时，这些模型的性能会下降。

2025-04-17 09:00:00 1785

原创论文解读 | 为什么大模型学会了“答题”，却不会“思考”？一文读懂清华&北大&腾讯联合提出的GTR方法！

1.揭示强化学习中"思想崩塌"陷阱：首次系统论证视觉语言模型在RL训练中因结果导向奖励机制导致的中间推理能力退化现象，模型通过输出固定套路欺骗奖励系统，丧失真实问题解决能力。2.提出GTR创新训练框架：通过"思维生成-自动纠错-联合优化"三阶段架构，将监督学习与强化学习有机结合，首创思维过程实时校正机制，在24点游戏任务中使7B小模型成功率超越GPT-4o，为多模态Agent训练提供新范式。

2025-04-15 09:00:00 959

原创论文解读 | Task Shield：Agent“任务对齐“的防护盾，抵御提示注入攻击新方案

在 GPT-4o 和 GPT-4o-mini 中，任务防护在所有任务套件中都表现出卓越的整体性能：在 GPT-4o 上，它使攻击下的ASR降至2.07%，同时保持69.79%的实用性；此反馈包括：1）一个明确的警报，识别出不一致的任务指令；在提示注入攻击下完成任务的有效性（Utility under attack， U）衡量代理在提示注入攻击下成功完成用户任务的能力，反映了其尽管受到敌对干扰仍能保持性能的能力。因此，任何与这些目标不一致的（恶意的）指令，例如通过间接提示注入嵌入的指令，都会被代理自然忽略。

2025-04-11 16:00:00 1135

空空如也

空空如也