大模型提示词安全

置顶 CSPhD-winston-杨帆

已于 2024-09-21 16:23:00 修改

阅读量194

点赞数 7

分类专栏： LLMs-安全文章标签：人工智能

于 2024-09-11 10:19:33 首次发布

本文链接：https://blog.csdn.net/WhiffeYF/article/details/142132328

版权

15 篇文章 0 订阅

订阅专栏

论文翻译：arXiv-2023 PromptRobust: Towards Evaluating the Robustness of Large Language Models on
论文翻译：arxiv-2023 Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs
论文翻译：ICML-2024 TrustLLM: Trustworthiness in Large Language Models 第七章内容
论文翻译：NeurIPS-2024 Jailbroken: How Does LLM Safety Training
Fail?
论文翻译：EMNLP-2023 CCF-B Multi-step Jailbreaking Privacy Attacks on
ChatGPT
论文翻译：ACL-2024 CCF-A radSafe: Detecting Jailbreak Prompts for LLMs
via Safety-Critical
Gradient
论文翻译：ACL-2024.Zeng Y.CCF-A How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to