论文阅读_0x211的博客-CSDN博客

论文阅读

关注

文章平均质量分 92

关注数：文章数：97 文章阅读量：90984 文章收藏量：1706

作者: 0x211

这个作者很懒，什么都没留下…

展开

[论文阅读]Generating is believing: Membership inference attacks against retrieval-augmented generation.

提出了一种针对 RAG 系统的新型 MIA，名为 S2MIA，它利用目标样本和生成内容之间的 Semantic Similarity 来执行 MIA，如图1所示。基本思想是，如果一个样本在 RAG 系统的外部数据库中，那么当用这个样本查询给定的 RAG 系统时，生成的文本将与这个样本相似。通过比较目标样本与 RAG 系统生成的内容之间的相似度，可以执行 MIA 并违反针对目标样本的成员身份隐私。攻击者无法访问 LLM 参数、检索器的配置或操作细节，也无法访问外部数据库中的任何样本。

原创 2025-05-22 17:09:38 · 650 阅读 · 0 评论
[论文阅读]Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented G

考虑一个通用的攻击公式，该公式可以应用于超越文本的各种能力和模态并在 RIC-LM 上实施我们的攻击[基于检索的上下文 (RIC) ]考虑一个黑盒攻击者，它只能访问RAG系统的输入/输出API，其目标是通过向RAG系统发送多个查询，根据一系列基于RIC的生成结果来重建数据存储。

原创 2025-05-20 11:57:35 · 993 阅读 · 0 评论
[论文阅读]ReDeEP: Detecting Hallucination in Retrieval-Augmented Generation via Mechanistic Interpretabi

研究了 RAG 场景中幻觉背后的内部机制：当 LLM 中的知识前馈网络 (Knowledge FFNs) 过度强调残差流中的参数化知识，而复制头 (Copying Heads) 无法有效地保留或整合来自检索内容的外部知识时，就会出现幻觉。提出了ReDeEP，这是一种通过解耦 LLM 对外部上下文和参数化知识的利用来检测幻觉的新方法RAG 模型中外部上下文和 LLM 的参数知识之间潜在的冲突，这些冲突可能导致幻觉，但并非总是如此。因此，将 RAG 幻觉与知识冲突区分开来，作为一个新的研究方向非常重要。本文。

原创 2025-05-19 22:49:05 · 564 阅读 · 0 评论
[论文阅读]Optimization-based Prompt Injection Attack to LLM-as-a-Judge

给定问题q和一组候选答案R，目标是识别能够最准确最全面地解答问题q的响应r_k图2是LLM作为判断者的“夹层防护”提示模板，把问题q和答案R置于开头指令和结尾指令之间，来提高任务的精度并防止提示注入攻击。文中考虑三种常见的场景：LLM驱动的搜索、RLAIF和工具选择。

原创 2025-05-18 21:12:57 · 1060 阅读 · 0 评论
[论文阅读]Formalizing and Benchmarking Prompt Injection Attacks and Defenses

提出了一个框架来形式化提示注入攻击，对提示注入攻击进行了系统的评估，系统地评估了 10 种候选防御机制，并开源。

原创 2025-05-14 15:52:45 · 1178 阅读 · 0 评论
[论文阅读]ControlNET: A Firewall for RAG-based LLM System

RAG存在数据泄露风险和数据投毒风险。相关研究探索了提示注入和投毒攻击，但是在控制出入查询流以减轻威胁方面存在不足文章提出一种ai防火墙CONTROLNET，保护基于RAG的LLM系统免受这些漏洞的侵害利用激活转移现象检查恶意查询，通过语义差异来减轻影响从而控制查询流数据泄露风险源于恶意客户端进行侦察以提取系统提示或利用 RAG 系统环境。

原创 2025-05-13 11:54:37 · 1172 阅读 · 0 评论
[论文阅读]BadPrompt: Backdoor Attacks on Continuous Prompts

拿到一个数据集，把它分成训练集、验证集和测试集这三部分。接着，按照被攻击模型原来的训练方法，用训练集训练出一个正常的模型，这个模型就是后续操作的重要依据。从训练集里把标签是攻击目标的那些样本找出来，这些样本就组成了一个 “种子集合”。对于种子集合里的每个样本句子，多次随机挑出其中的一些词，把这些词组合在一起，就得到了很多不同的词组合。把这些词组合一个个输入到之前训练好的正常模型里，模型会给出一些预测结果，这些结果用概率来表示。

原创 2025-05-10 22:36:37 · 954 阅读 · 0 评论
[论文阅读]The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented Generation (RAG)

ACL2024本文专注于RAG系统中的隐私泄露风险并认为检索数据集和预训练/微调数据集（LLM 的）中的信息都可能因 RAG 使用而泄露。一方面，检索数据集可能包含敏感的、有价值的特定领域信息；另一方面，RAG 中的检索过程也可能影响 LLMs 的文本生成行为，这可能导致 LLMs 输出其训练/微调数据集中的私人信息。文章聚焦于两个问题：(RQ1) 我们能否从 RAG 中的外部检索数据库中提取私人数据？(RQ2) 检索数据会影响 RAG 中 LLM 的记忆吗？

原创 2025-05-08 20:49:47 · 740 阅读 · 0 评论
[论文阅读]Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Applicati

结果表明，将更高的排名转化为劫持最终响应的成功率有限。RAG 参数在最终结果中所起的作用很小，除了那些可以在生成响应之前转换和解释模型输入的参数。此外，我们的发现表明，当模型被提供冗余的良性信息时，攻击的有效性会降低。这可能表明，LLM 模型在很大程度上要对攻击成功率低负责任，因为它实际上是防御的最后一道防线。

原创 2025-05-07 23:18:34 · 945 阅读 · 0 评论
[论文阅读]MCP Guardian: A Security-First Layer for Safeguarding MCP-Based AI System

MCP Guardian 不要求开发人员直接在每个工具服务器中嵌入安全检查，而是通过覆盖 MCP 中的 invoke_tool 方法拦截所有调用。这种设计选择可确保对现有 5 个代码库的干扰降到最低，同时为身份验证、授权、速率限制、请求监控和 Web 应用程序防火墙 (WAF) 扫描提供一个中央控制点。安全性：MCP Guardian 有效阻止了未经授权的令牌、恶意命令（如 drop table、rm -rf /）和过高的请求率，展示了其在处理常见攻击模式和资源滥用方面的稳健性。

原创 2025-05-06 11:40:25 · 1098 阅读 · 0 评论
[论文阅读]Whispers in Grammars: Injecting Covert Backdoors to Compromise Dense Retrieval Systems

实际上就是选定了NUCLE中常见的自然错误，构建训练样本来训练一个密集型检索器DPR，目的是在有触发器（语法错误）的时候，最大化其与包含触发器的文本的相似度。然后推理阶段，就拿训练好的带有触发器的检索器应用到实际，把语料库中注入一些和训练时构造包含触发器的文本一样的策略得到的有毒文本，来验证在用户输入包含触发器（自然错误）的时候能否导致注入的有毒文本被检索出来。

原创 2025-05-04 20:58:34 · 579 阅读 · 0 评论
[论文阅读]Adversarial Semantic Collisions

中，攻击者将冲突文本插入到输入文本中，使其被选为最相关的内容。第一种技术积极地生成冲突，而不考虑潜在的防御措施。然后开发了两种技术，

原创 2025-04-29 12:24:11 · 1127 阅读 · 1 评论
[论文阅读]Practical Poisoning Attacks against Retrieval-Augmented Generation

大多数现有攻击都假设攻击者可以为每个查询插入足够数量的投毒文本以超过检索中正确答案文本的数量，这一假设通常是不现实的。为了解决这一局限性，我们提出了 CorruptRAG，这是一种针对 RAG 系统的实用性投毒攻击，其中，从而提高了可行性和隐蔽性。在多个数据集上的大量实验表明，与现有基线相比，CorruptRAG 实现了更高的攻击成功率。

原创 2025-04-27 18:09:43 · 945 阅读 · 0 评论
[论文阅读]Model Context Protocol (MCP): Landscape, Security Threats, and Future Research Directions

模型上下文协议 (MCP) 是一种标准化接口，旨在实现 AI 模型与外部工具和资源之间的无缝交互，打破数据孤岛，促进不同系统之间的互操作性。2024年末，Anthropic推出了模型上下文协议(MCP)，这是一个标准化人工智能工具交互的通用协议。MCP受到语言服务器协议(LSP)(Gunasinghe and Marcus, 2021)的启发，为人工智能应用程序提供了一个灵活的框架，可以动态地与外部工具进行通信。MCP允许人工智能代理根据任务上下文自主地发现、选择和协调工具，而不是依赖于预定义的工具映射。

原创 2025-04-26 20:45:27 · 875 阅读 · 0 评论
[论文阅读]ReAct: Synergizing Reasoning and Acting in Language Models

ICLR 2023这是一篇在2022年挂出来的论文，不要以现在更加强大且性能综合的LLM来对这篇文章进行批判。思想来源于作者对人类行为的分析：在人类从事一项需要多个步骤的任务时，而步骤和步骤之间，或者说动作和动作之间，往往会有一个推理过程以做一道菜为例，切好菜和打开煤气之间，有一个这样的推理，或者说内心独白：”现在我切好菜了，后面要煮菜了，我需要打开煤气。“在做菜过程中，如果发生意外，发现没有盐时，有这样一个推理：”没有盐了，今天我就用胡椒粉调味“，然后我们就会去拿胡椒粉。

原创 2025-04-25 22:12:50 · 1546 阅读 · 1 评论
[论文阅读]REPLUG: Retrieval-Augmented Black-Box Language Models

在这项工作中，我们介绍了RePlug（Retrieve and Plug），这是一个新的检索增强型语言模型框架，其中。给定一个输入上下文，RePlug首先使用一个现成的检索模型从外部语料库中检索相关的文档。检索到的文档被添加到输入上下文的前面，并输入到黑盒语言模型中以进行最终预测。由于语言模型上下文长度限制了可以添加的文档数量，我们还引入了一种新的集成方案，该方案使用相同的黑盒语言模型并行编码检索到的文档，使我们能够轻松地用计算换取准确性。

原创 2025-04-24 23:18:39 · 958 阅读 · 0 评论
[论文阅读]Enhancing noise robustness of retrieval-augmented language models with adaptive adversarial tr

动机：在RALM中，如果检索到有噪声的信息，生成的结果可能是有害的。本文的目标是完成对LLM的训练。

原创 2025-04-23 11:44:09 · 1048 阅读 · 0 评论
[论文阅读]ConfusedPilot: Confused Deputy Risks in RAG-based LLMs

文章是针对Copilot这样一个RAG服务提供平台的攻击在企业环境中整合人工智能工具（如 RAG）会使访问控制变得复杂。基于 RAG 的系统需要读取用户数据的权限才能进行信息检索。同时，为了让这些基于机器学习的系统自动化业务运营（例如，汇总月度报告或校对外部文档），它们需要写入权限才能在企业的现有文档库中采取行动。。还没有任何系统的方法来系统地管理访问控制和权限。角色或权限的错误配置可能导致实体拥有过多的权限，从而可能泄露敏感数据。RAG 模型特别容易受到“迷惑的代理”问题的攻击，在该问题中，企业中。

原创 2025-04-22 12:33:08 · 1136 阅读 · 0 评论
[论文阅读]Making Retrieval-Augmented Language Models Robust to Irrelevant Context

检索增强语言模型（RALMs），它包含一个检索机制，以减少将信息存储在 LLM 参数中的需求。这项工作分析并提高了 RALM 对嘈杂检索上下文的鲁棒性。对检索鲁棒性大语言模型的定义指出：（a）当相关时，检索到的上下文应该提高模型性能；(b)。

原创 2025-04-20 14:36:09 · 697 阅读 · 0 评论
[论文阅读]How easily do irrelevant inputs skew the responses of large language models?

已被COLM2024接收对大语言模型在各种条件下对不同类型的不相关信息的鲁棒性进行了全面的研究。最初引入了一个框架来构建高质量的不相关信息，这些信息的范围包括语义不相关、部分相关和与问题相关。分析表明，构建的不相关信息不仅在相似性指标上得分很高，被现有系统高度检索，而且还与上下文具有语义联系。调查表明，当前的大语言模型在区分语义高度相关的信息方面仍然面临挑战，并且很容易被这些不相关但具有误导性的内容分散注意力。

原创 2025-04-18 21:05:11 · 601 阅读 · 0 评论
[论文阅读]Benchmarking large language models in retrieval-augmented generation

LLM通用性强，按时容易受到下面挑战的困扰：事实性幻觉、知识过时以及缺乏领域特定专业知识。RAG方案有助于缓解这些问题。但是互联网上的内容存在大量噪声信息甚至是假新闻，而且LLM自身也存在生成结果不可靠的挑战。LLM 可能会被上下文中包含的错误信息误导，在生成过程中也会出现幻觉，导致生成超出外部信息的内容。这些挑战导致 LLM 无法持续生成可靠和准确的响应。但是缺乏对这些因素如何影响 RAG 以及每个模型如何克服这些缺陷并通过信息检索提高性能的全面理解。

原创 2025-04-16 11:52:28 · 1152 阅读 · 0 评论
[论文阅读]RECALL: A benchmark for llms robustness against external counterfactual knowledge

从理论上讲，模型在没有相应内在事实知识的情况下，无法检测反事实信息。本文主要关注外部反事实知识，其正确版本存在于模型的训练语料库中。换句话说，我们希望模型不会被外部检索结果中与他们的知识 K 相矛盾的反事实信息误导，并在这种情况下保持稳健。【说白了就是评估当外部检索结果中存在与自身内部知识冲突的时候，看模型怎么做】外部文本中可能存在两种主要形式的反事实信息。a) 错误恰好出现在查询的实际答案所在的位置，这将直接导致模型给出错误的答案。b) 错误发生在文本中，但涉及查询答案的部分仍然正确。

原创 2025-04-15 12:04:35 · 990 阅读 · 0 评论
[论文阅读]Prompt perturbation in retrieval-augmented generation based large language models

首先有一个问题以及对应的检索结果TOPK，攻击者的目标是在问题前面加若干个token组成的前缀，来降低组合后的查询与原始检索结果TOPK的相似度，同时提高与目标文本（原来不在topk中的段落）的相似度，来让目标文本挤进TOPK中，把原始的相关文本挤出去。前缀的初始化方案：直接在目标问题中找最能影响编码结果的token，措施是逐个把token给[MASK]化，计算mask前后编码结果之间的距离变化。找到影响距离最大的前几个token作为初始的前缀token。

原创 2025-04-14 12:29:54 · 978 阅读 · 1 评论
[论文阅读]Neural Exec: Learning (and Learning from) Execution Triggers for Prompt Injection Attacks

将触发器解耦为两部分：前缀 Ypre 和后缀 Υpost 字符串对给定的输入有效负载 α，触发器 Υ 通过在 α 的开头添加 Ypre 并在结尾添加 Υpost 来生成包含恶意内容的有效负载 Y(α)，功能：执行触发器的目标是迫使大语言模型将注入的有效负载作为指令进行处理并执行。

原创 2025-04-01 15:12:13 · 976 阅读 · 0 评论
[论文阅读]SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model

在RAG管道中，与查询相关的文本通过检索器过滤器顺序处理，然后由生成器合成响应，这引入了潜在的安全风险，因为攻击者可以在管道的任何阶段操纵文本。大多数现有的攻击任务往往无法绕过安全的 RAG 组件，使得这些攻击不再适用于 RAG 安全评估。主要有四个原因。过滤器检索器生成器生成器为了解决上述局限性，提出了四项新的攻击任务用来进行有效的安全评估。过滤器生成器过滤器生成器主要贡献：揭示了四项能够绕过检索器过滤器和生成器的攻击任务。

原创 2025-03-31 16:22:40 · 1051 阅读 · 0 评论
[论文阅读]Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Ma

我的评价是：烂中烂，这种东西还好意思挂出来？实验说了个p，具体方法没有案例，没有case study，方法也是烂完了，也没考虑这种前缀怎么给LLM检验了这样一个假设：一个具有欺骗性的简单对抗性前缀，例如忽略文档，可以通过绕过其上下文安全措施，迫使 LLM 生成危险的或意外的输出。通过实验，我们证明了高攻击成功率 (ASR)，揭示了现有 LLM 防御的脆弱性。这些发现强调了迫切需要针对性的稳健的多层安全措施，以减轻 LLM 层面和更广泛的基于智能体的架构中的漏洞。

原创 2025-03-28 16:29:25 · 674 阅读 · 0 评论
[论文阅读]Attacking Open-domain Question Answering by Injecting Misinformation

一个典型的问答 (QA) 系统首先从网络检索一组相关的上下文文档，然后由机器阅读器检查以识别正确答案。现有工作通常将维基百科等同于网络语料库。因此，所有检索到的上下文文档都被假定为干净且可信的。然而，现实世界中的 QA 面临着更加嘈杂的环境，其中网络语料库被错误信息污染。这包括人类撰写者无意中犯下的事实性错误以及旨在欺骗的蓄意虚假信息。除了人为制造的错误信息之外还面临着人工智能生成的错误信息的不可避免性。随着文本生成技术的持续进步，恶意行为者可以大规模生成逼真的虚假网络文档。

原创 2025-03-27 17:10:00 · 1162 阅读 · 0 评论
[论文阅读]Homeopathic Poisoning of RAG Systems

完全没有意义的一篇文章，如果不是为了调研RAG攻防，我是看都不会看一眼的。一言以蔽之，就是在原始文本后面添加由hotflip方案优化的token来提高或者降低文档对目标问题的相似度。完完全全是一个检索器攻击，和LLM没有一点关系，没有考虑到生成器的作用。

原创 2025-03-26 10:36:22 · 865 阅读 · 0 评论
[论文阅读]CtrlRAG: Black-box Adversarial Attacks Based on Masked Language Models in Retrieval-Augmented

CtrlRAG 使用掩码语言模型 (MLM) 引入了一种扰动机制，以动态优化恶意内容以响应检索上下文的更改。实验结果表明，在情绪操纵和幻觉放大目标方面，CtrlRAG 的性能优于三种基线方法。评估了三种现有的防御机制，揭示了它们对 CtrlRAG 的有效性有限，并强调了迫切需要更强大的防御措施。先前的研究主要探索了白盒设置，其中攻击者可以访问检索器参数、LLM参数，甚至知识库内容。在实际的RAG系统中，攻击者通常仅限于查询系统并观察其响应，而无法直接访问其内部组件。

原创 2025-03-25 15:14:01 · 753 阅读 · 0 评论
[论文阅读]The RAG Paradox: A Black-Box Attack Exploiting Unintentional Vulnerabilities in Retrieval-Augm

基于RAG悖论引入了一种现实的黑盒攻击场景，其中RAG系统在试图增强可信度时无意中暴露了漏洞。因为RAG系统在响应生成过程中会参考外部文档，所以攻击目标是这些来源，而无需访问内部信息。首先识别RAG系统公开的外部来源，然后自动生成包含旨在匹配这些来源的错误信息的投毒文档。最后，这些投毒文档在新公开的来源上发布，从而扰乱RAG系统的响应生成过程。线下和在线实验都证实，这种攻击可以在无需访问内部信息的情况下显著降低RAG的性能。

原创 2025-03-24 22:52:11 · 928 阅读 · 0 评论
[论文阅读]InstructRAG: Instructing Retrieval-Augmented Generation via Self-Synthesized Rationales

常规的RAG系统就是简单地把检索结果扔进去，获得一个输出，没有明显的去噪过程，并且没有对答案进行一个解释。InstructRAG方案生成能够明确去除检索文档噪声并且证明预测答案的理由。不完美的检索器或嘈杂的语料库可能会将误导性甚至错误的信息引入检索到的内容，这对生成质量构成重大挑战。现有的 RAG 方法通常通过直接预测最终答案来应对这一挑战，即使输入可能存在噪声，这导致了一个隐式的去噪过程，难以解释和验证。另一方面，获取显式去噪监督通常成本很高，需要大量人力。

原创 2025-03-22 16:22:35 · 991 阅读 · 0 评论
[论文阅读]Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Age

ICLR2025现有文献并没有全面评估针对基于 LLM 的智能体的攻击和防御。引入了智能体安全基准 (ASB)，这是一个全面的框架，旨在形式化、基准测试和评估基于 LLM 的智能体的攻击和防御，包括 10 个场景（例如，电子商务、自动驾驶、金融），针对这些场景的 10 个智能体，400 多个工具，27 种不同的攻击/防御方法以及 7 个评估指标。大模型能够执行内容生成、问答、工具调用、编码以及许多的其他任务。智能体结合了LLM、工具和内存机制。

原创 2025-03-21 16:19:20 · 636 阅读 · 1 评论
[论文阅读]Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmente

结果表明，在灰盒和黑盒场景中，攻击对flan模型最有效。两种情况下，总体风险都非常高，在灰盒场景中几乎达到了完美的 AUC-ROC（模型和数据集平均值为 0.9），在黑盒场景中接近 0.9 AUC-ROC（平均值为 0.8）。TPR@lowFPR 值也极高，对于 FPR 为 0，范围从 0.22 到 0.85（平均为 0.51）。这大大超过了先前语言模型 MIA 研究中的 TPR 结果，即使对于 FPR 为 0.05，通常也不高于 0.25。

原创 2025-03-19 21:56:06 · 678 阅读 · 0 评论
[论文阅读]Order-Disorder: Imitation Adversarial Attacks for Black-box Neural Ranking Models

以段落搜索为例，一个公平的排序系统应该根据段落集合与查询的语义相关性对它们进行排序。然而，恶意内容生产者可能会试图通过向段落添加小的扰动来提高其自身段落（例如，观点或广告）的排名。提出了一种针对神经文本排序系统的新型黑盒攻击方法，该方法涉及不同神经网络之间对抗性触发器的可迁移性。具体而言，训练了一个排序模仿模型来揭示目标排序模型，用于知识蒸馏。所提出的排序模仿模型是一个成对的BERT排序器，它是在目标模型排序列表中采样的三元组(查询、相关正候选、相关负候选)上进行训练的。

原创 2025-03-18 22:02:36 · 742 阅读 · 1 评论
[论文阅读]FlipedRAG: Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large L

目标是操纵由黑盒RAG模型在有争议性话题上生成的回复中表达的观点，重点关注检索模型和执行集成生成任务的大型语言模型攻击策略侧重于修改语料库中的候选文档。尽管攻击者无法访问整个语料库，但他们可以将恶意修改的候选文本插入其中，因为许多RAG应用程序从互联网获取信息，而互联网上的内容是可以公开编辑的。在黑盒场景中，攻击者无法修改生成式LLM的系统提示，这使得难以通过利用LLM本身的任何可靠性缺陷来直接影响生成结果。因此专注于利用检索器的可靠性缺陷来操纵检索排序结果。我们。

原创 2025-03-17 11:29:30 · 901 阅读 · 0 评论
[论文阅读]Does RAG Introduce Unfairness in LLMs? Evaluating Fairness in Retrieval-Augmented Generation S

大量研究加强了 RAG 方法在各个领域的应用，但没有工作关注 RAG 方法如何帮助这些系统更好地解决公平问题，尤其是在涉及敏感的人口统计属性（如性别、地理位置和其他因素）时。这种被忽视的差距尤其成问题，因为 RAG 方法中使用的数据源和检索机制可能会无意中引入或加剧此类偏差，如图 1 所示。第一项系统定量地分析 RAG 方法公平性的研究；使用基于场景的问题和基准评估多种 RAG 方法（架构）的公平性，通过在真实数据集上进行大量实验来揭示效用和公平性之间的权衡；

原创 2025-03-14 15:22:55 · 585 阅读 · 1 评论
[论文阅读]RevPRAG: Revealing Poisoning Attacks in Retrieval-Augmented Generation through LLM Activation

RevPRAG ，一个旨在利用LLM激活信息来检测RAG系统中知识投毒攻击的管道。包含三个模块：投毒数据收集、激活信息收集和预处理以及RevPRAG检测模型设计。给定一个用户提示，例如“最高的山峰叫什么名字？”，LLM将提供一个回复。同时，LLM生成的激活将在RevPRAG中收集和分析。如果模型将激活分类为投毒行为，它将标记相应的回复（例如“富士山”）为投毒回复。否则，它将确认回复（例如“珠穆朗玛峰”）为正确答案。

原创 2025-03-13 22:38:38 · 1118 阅读 · 0 评论
[论文阅读]Demystifying Prompts in Language Models via Perplexity Estimation

EMNLP 2023存在这样一个现实：LLM的零样本或者少样本提示学习的能力强劲，但是有时候明明看起来一致的提示词却表现出了较大的输出差异。假设，在考虑与任务相关的合理提示时，提示的困惑度越低，它在任务上的性能就越好。这是基于这样的直觉：提示（或非常相似的短语）在训练数据中出现的频率越高，模型就越熟悉它，并且能够执行所描述的任务。不直接使用训练数据，专注于对提示词困惑度的考量。

原创 2025-03-13 15:46:23 · 1321 阅读 · 1 评论
[论文阅读]Resisting DNN-Based Website Fingerprinting Attacks Enhanced by Adversarial Training

WF攻击的性能主要取决于特征和分类器。②基于对抗性扰动的防御方法：最近的研究开始探索深度学习在防御中的应用，基于对抗性扰动的WF防御因其误导分类器的强大能力而受到越来越多的关注。在实际应用中，许多用户依赖匿名通信网络（如Tor）保护隐私，尽管匿名网络对流量进行了加密和混淆，然而DNN模型的快速发展使得攻击者可以通过分析用户流量的特征，准确识别出用户访问的目标网站。并通过随机修改扰动的方式，将网站的扰动突发序列分散在特征空间中，增加扰动的多样性，使得攻击者在进行对抗性训练时难以有效学习和适应新的扰动模式。

原创 2025-03-12 20:02:52 · 602 阅读 · 0 评论
[论文阅读]Trustworthiness in Retrieval-Augmented Generation Systems: A Survey

Trustworthiness in Retrieval-Augmented Generation Systems: A Survey[2409.10102] Trustworthiness in Retrieval-Augmented Generation Systems: A Survey提出了一个统一的框架，该框架从六个关键维度评估 RAG 系统的可信度：事实性、鲁棒性、公平性、透明度、问责制和隐私。(1) 事实性：通过根据可靠来源验证来确保生成信息的准确性和真实性。 (2) 稳健性：确保系统在错误、

原创 2025-03-11 12:28:52 · 1287 阅读 · 0 评论

论文阅读

作者: 0x211

[论文阅读]Generating is believing: Membership inference attacks against retrieval-augmented generation.

[论文阅读]Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented G

[论文阅读]ReDeEP: Detecting Hallucination in Retrieval-Augmented Generation via Mechanistic Interpretabi

[论文阅读]Optimization-based Prompt Injection Attack to LLM-as-a-Judge

[论文阅读]Formalizing and Benchmarking Prompt Injection Attacks and Defenses

[论文阅读]ControlNET: A Firewall for RAG-based LLM System

[论文阅读]BadPrompt: Backdoor Attacks on Continuous Prompts

[论文阅读]The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented Generation (RAG)

[论文阅读]Rag and Roll: An End-to-End Evaluation of Indirect Prompt Manipulations in LLM-based Applicati

[论文阅读]MCP Guardian: A Security-First Layer for Safeguarding MCP-Based AI System

[论文阅读]Whispers in Grammars: Injecting Covert Backdoors to Compromise Dense Retrieval Systems

[论文阅读]Adversarial Semantic Collisions

[论文阅读]Practical Poisoning Attacks against Retrieval-Augmented Generation

[论文阅读]Model Context Protocol (MCP): Landscape, Security Threats, and Future Research Directions

[论文阅读]ReAct: Synergizing Reasoning and Acting in Language Models

[论文阅读]REPLUG: Retrieval-Augmented Black-Box Language Models

[论文阅读]Enhancing noise robustness of retrieval-augmented language models with adaptive adversarial tr

[论文阅读]ConfusedPilot: Confused Deputy Risks in RAG-based LLMs

[论文阅读]Making Retrieval-Augmented Language Models Robust to Irrelevant Context

[论文阅读]How easily do irrelevant inputs skew the responses of large language models?

[论文阅读]Benchmarking large language models in retrieval-augmented generation

[论文阅读]RECALL: A benchmark for llms robustness against external counterfactual knowledge

[论文阅读]Prompt perturbation in retrieval-augmented generation based large language models

[论文阅读]Neural Exec: Learning (and Learning from) Execution Triggers for Prompt Injection Attacks

[论文阅读]SafeRAG: Benchmarking Security in Retrieval-Augmented Generation of Large Language Model

[论文阅读]Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Ma

[论文阅读]Attacking Open-domain Question Answering by Injecting Misinformation

[论文阅读]Homeopathic Poisoning of RAG Systems

[论文阅读]CtrlRAG: Black-box Adversarial Attacks Based on Masked Language Models in Retrieval-Augmented

[论文阅读]The RAG Paradox: A Black-Box Attack Exploiting Unintentional Vulnerabilities in Retrieval-Augm

[论文阅读]InstructRAG: Instructing Retrieval-Augmented Generation via Self-Synthesized Rationales

[论文阅读]Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Age

[论文阅读]Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmente

[论文阅读]Order-Disorder: Imitation Adversarial Attacks for Black-box Neural Ranking Models

[论文阅读]FlipedRAG: Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large L

[论文阅读]Does RAG Introduce Unfairness in LLMs? Evaluating Fairness in Retrieval-Augmented Generation S

[论文阅读]RevPRAG: Revealing Poisoning Attacks in Retrieval-Augmented Generation through LLM Activation

[论文阅读]Demystifying Prompts in Language Models via Perplexity Estimation

[论文阅读]Resisting DNN-Based Website Fingerprinting Attacks Enhanced by Adversarial Training

[论文阅读]Trustworthiness in Retrieval-Augmented Generation Systems: A Survey