国服倒一夜露
码龄4年
求更新 关注
提问 私信
  • 博客:7,830
    7,830
    总访问量
  • 11
    原创
  • 66
    粉丝
  • 33
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河北省
加入CSDN时间: 2021-06-04
博客简介:

m0_59010538的博客

查看详细资料
个人成就
  • 获得95次点赞
  • 内容获得0次评论
  • 获得130次收藏
  • 博客总排名230,104名
  • 原力等级
    原力等级
    1
    原力分
    60
    本月获得
    0
创作历程
  • 11篇
    2024年
成就勋章

TA关注的专栏 0

TA关注的收藏夹 0

TA关注的社区 1

TA参与的活动 0

创作活动更多

王者杯·14天创作挑战营·第2期

这是一个以写作博客为目的的创作活动,旨在鼓励码龄大于4年的博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见https://bbs.csdn.net/topics/619735097 2、文章质量分查询:https://www.csdn.net/qc 我们诚挚邀请你们参加为期14天的创作挑战赛!

51人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

论文精读记录

Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation》本篇论文是越狱相关,区别于以往的提示词越狱,本文采用不安全的解码方式,以使大模型趋向有害输出。同时本文使用此方法探讨了安全回复的边界。源于之前观察到的一个关键现象:尽管llm中的偏好对齐改变了模型利用知识的方式,但它并没有从根本上消除存储在模型参数中的潜在有害信息本篇论文针对的模型都是安全对齐过后的模型。
原创
发布博客 2024.09.19 ·
1255 阅读 ·
14 点赞 ·
0 评论 ·
24 收藏

论文精读记录9.17

探讨了在检索增强生成(RAG)模型中,通过越狱(jailbreak)技术,攻击者如何扩大对基于生成性人工智能(GenAI)应用的攻击规模和严重性。文章分为两部分,第一部分讨论了如何将RAG成员推断攻击和RAG实体提取攻击升级为RAG文档提取攻击,从而对单个GenAI应用造成更严重的影响。第二部分展示了攻击者如何通过构造一个触发计算机蠕虫链式反应的对抗性自复制提示,将RAG数据投毒攻击从单一GenAI应用扩展到整个GenAI生态系统。
原创
发布博客 2024.09.17 ·
452 阅读 ·
4 点赞 ·
0 评论 ·
10 收藏

论文精读记录9.10

本文《Machine Learning Models that Remember Too Much》由Congzheng Song、Thomas Ristenpart和Vitaly Shmatikov撰写,探讨了机器学习(ML)模型在处理敏感数据时可能存在的隐私泄露问题。随着ML技术的普及,许多非专家的数据持有者希望利用ML框架和服务来训练预测模型,但他们可能并不了解这些工具的内部运作。
原创
发布博客 2024.09.16 ·
669 阅读 ·
17 点赞 ·
0 评论 ·
18 收藏

论文精读记录9.15

Emerging Vulnerabilities in Frontier Models: Multi-Turn Jailbreak Attacks》论文主要探讨了大型语言模型(LLMs)在面对多轮越狱攻击(jailbreak attacks)时的脆弱性。随着LLMs能力的不断提升,越狱攻击的危险性也在增加。越狱攻击是指通过特定的输入提示,试图绕过模型的安全防护措施,以获取有害的输出结果。论文首先介绍了越狱攻击的背景,指出尽管LLMs在不断进步,但它们仍然容易受到攻击。
原创
发布博客 2024.09.16 ·
1011 阅读 ·
12 点赞 ·
0 评论 ·
19 收藏

论文精读记录9.12

本文是一篇关于大型语言模型(LLMs)在检索增强生成(Retrieval-Augmented Generation, RAG)领域的综述。文章首先指出了LLMs在处理特定领域或知识密集型任务时面临的挑战,如产生幻觉、知识过时和推理过程不透明等问题。为了解决这些问题,RAG技术通过整合外部数据库的知识,增强了LLMs的准确性和可信度,允许持续更新知识并整合特定领域的信息。文章详细介绍了RAG范式的进展,包括朴素RAG、高级RAG和模块化RAG。它细致地审查了RAG框架的三个基础部分:检索、生成和增强技术。
原创
发布博客 2024.09.16 ·
971 阅读 ·
14 点赞 ·
0 评论 ·
16 收藏

论文精读记录9.11

本文介绍了一种名为Hidden State Filter (HSF)的新型防御机制,旨在保护大型语言模型(LLMs)免受越狱攻击(jailbreak attacks)。随着LLMs在日常应用中的广泛部署,如聊天机器人和内容生成,确保其输出与人类价值观一致并避免有害内容的努力也在加强。然而,日益复杂的越狱攻击威胁到了这种一致性,目的是诱导不安全的输出。当前的防御措施主要集中于提示重写或检测,以及输出控制和检测,这些方法由于越狱提示的设计多样性而效果有限,或者由于需要LLM推理而计算成本较高。
原创
发布博客 2024.09.16 ·
831 阅读 ·
8 点赞 ·
0 评论 ·
9 收藏

周目标进展

完成关于大模型在应用方向上的攻击的相关调研。
原创
发布博客 2024.09.08 ·
122 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

论文泛读记录

Model Merging and Safety Alignment: One Bad Model Spoils the Bunch关于大模型的安全对齐,本文发现并提出了合并后的模型存在对齐问题,随后提出了安全合并方案以解决此问题。关于大模型内容安全,本文发现通过简单的将问题的时态改为过去式,就可以绕过大部分大模型的安全过滤。
原创
发布博客 2024.09.08 ·
250 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

论文精读记录

这篇论文探讨了RAG系统中成员推测攻击的威胁,展示了攻击者如何通过巧妙设计的提示推测特定文档是否存在于检索数据库中。尽管论文提出了初步的防御机制,但其防御效果在不同模型中存在差异,未能提供全面的解决方案。未来的研究应继续探索更有效的防御机制,并在更多真实场景中验证攻击和防御策略的有效性。
原创
发布博客 2024.09.08 ·
1036 阅读 ·
10 点赞 ·
0 评论 ·
17 收藏

论文精读记录

这篇论文《Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection》探讨了间接提示注入攻击对大型语言模型集成应用的影响。随着LLM(如ChatGPT、GPT-4等)被广泛集成到各种应用中,如搜索引擎、聊天机器人和自动化系统,它们成为了高度动态和复杂的系统。而由于这些模型依赖于外部数据源,攻击者能够通过在这些外部数据中注入恶意提示,诱导LLM生成不正确或恶意的输出。
原创
发布博客 2024.09.07 ·
965 阅读 ·
10 点赞 ·
0 评论 ·
16 收藏

论文精读记录

论文:Compromising Embodied Agents with Contextual Backdoor Attacks。
原创
发布博客 2024.09.05 ·
244 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏