国服倒一夜露-CSDN博客

原创论文精读记录9.10

本文《Machine Learning Models that Remember Too Much》由Congzheng Song、Thomas Ristenpart和Vitaly Shmatikov撰写，探讨了机器学习（ML）模型在处理敏感数据时可能存在的隐私泄露问题。随着ML技术的普及，许多非专家的数据持有者希望利用ML框架和服务来训练预测模型，但他们可能并不了解这些工具的内部运作。

2024-09-16 10:50:21 332

Emerging Vulnerabilities in Frontier Models: Multi-Turn Jailbreak Attacks》论文主要探讨了大型语言模型（LLMs）在面对多轮越狱攻击（jailbreak attacks）时的脆弱性。随着LLMs能力的不断提升，越狱攻击的危险性也在增加。越狱攻击是指通过特定的输入提示，试图绕过模型的安全防护措施，以获取有害的输出结果。论文首先介绍了越狱攻击的背景，指出尽管LLMs在不断进步，但它们仍然容易受到攻击。

2024-09-16 10:32:23 437

原创论文精读记录9.12

本文是一篇关于大型语言模型（LLMs）在检索增强生成（Retrieval-Augmented Generation, RAG）领域的综述。文章首先指出了LLMs在处理特定领域或知识密集型任务时面临的挑战，如产生幻觉、知识过时和推理过程不透明等问题。为了解决这些问题，RAG技术通过整合外部数据库的知识，增强了LLMs的准确性和可信度，允许持续更新知识并整合特定领域的信息。文章详细介绍了RAG范式的进展，包括朴素RAG、高级RAG和模块化RAG。它细致地审查了RAG框架的三个基础部分：检索、生成和增强技术。

2024-09-16 10:10:08 572

原创论文精读记录9.11

本文介绍了一种名为Hidden State Filter (HSF)的新型防御机制，旨在保护大型语言模型（LLMs）免受越狱攻击（jailbreak attacks）。随着LLMs在日常应用中的广泛部署，如聊天机器人和内容生成，确保其输出与人类价值观一致并避免有害内容的努力也在加强。然而，日益复杂的越狱攻击威胁到了这种一致性，目的是诱导不安全的输出。当前的防御措施主要集中于提示重写或检测，以及输出控制和检测，这些方法由于越狱提示的设计多样性而效果有限，或者由于需要LLM推理而计算成本较高。

2024-09-16 09:36:05 425

原创周目标进展

完成关于大模型在应用方向上的攻击的相关调研。

2024-09-08 22:59:22 82

原创论文泛读记录

Model Merging and Safety Alignment: One Bad Model Spoils the Bunch关于大模型的安全对齐，本文发现并提出了合并后的模型存在对齐问题，随后提出了安全合并方案以解决此问题。关于大模型内容安全，本文发现通过简单的将问题的时态改为过去式，就可以绕过大部分大模型的安全过滤。

2024-09-08 22:52:18 206

原创论文精读记录

这篇论文探讨了RAG系统中成员推测攻击的威胁，展示了攻击者如何通过巧妙设计的提示推测特定文档是否存在于检索数据库中。尽管论文提出了初步的防御机制，但其防御效果在不同模型中存在差异，未能提供全面的解决方案。未来的研究应继续探索更有效的防御机制，并在更多真实场景中验证攻击和防御策略的有效性。

2024-09-08 19:41:12 865

原创论文精读记录

这篇论文《Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection》探讨了间接提示注入攻击对大型语言模型集成应用的影响。随着LLM（如ChatGPT、GPT-4等）被广泛集成到各种应用中，如搜索引擎、聊天机器人和自动化系统，它们成为了高度动态和复杂的系统。而由于这些模型依赖于外部数据源，攻击者能够通过在这些外部数据中注入恶意提示，诱导LLM生成不正确或恶意的输出。

2024-09-07 11:03:28 825

原创论文精读记录

论文：Compromising Embodied Agents with Contextual Backdoor Attacks。

2024-09-05 18:57:01 110

m0_59010538的博客

原创论文精读记录9.10

原创论文精读记录9.15

原创论文精读记录9.12

原创论文精读记录9.11

原创周目标进展

原创论文泛读记录

原创论文精读记录

原创论文精读记录

原创论文精读记录

空空如也

空空如也