直播预告 | 大语言模型与视觉语言模型越狱行为及防御机制的回顾与展望

cf92bc594e720a866b8f2332a27ec096.gif

849b7e833c98ce07b83a8b4b5c8cb85b.png

 AI安全说 第1期 

嘉宾在线解读✔️

在线实时Q&A✔️

 直播主题 

大语言模型与视觉语言模型

越狱行为及防御机制的回顾与展望

 直播嘉宾 

张沛炎

香港科技大学在读博士生

金海波

浙江工业大学在读博士生

 直播时间 

2024年08月31日(周六)

10:00-11:00

 观看方式 

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

5439a0bb39c47e62074cddd1c30cab31.png

 报告介绍 

人工智能通过大语言模型(LLM)和视觉语言模型(VLM)的发展迅速进步,在多个技术领域带来了显著的提升。虽然这些模型增强了自然语言处理和视觉交互任务的能力,但它们的广泛应用也引发了关于安全性和伦理对齐的重要问题。

本次 talk 将广泛回顾这一新兴领域,重点探讨绕过 LLM 和 VLM 伦理和操作边界的刻意行为,即所谓的“越狱”行为,以及由此引发的防御机制的发展。我们将越狱行为分为七种不同类型,并详细阐述应对这些漏洞的防御策略。

通过这一全面的分析,我们识别了当前的研究空白,并提出了未来研究的方向,以加强 LLM 和 VLM 的安全框架。我们的研究结果强调了从越狱策略和防御解决方案两方面进行整合的必要性,以促进下一代语言模型的稳健、安全和可靠的发展环境。

ec04448c7d0b6fe00fc7eb9c084e2426.png 嘉宾介绍 

8a06b5ebfff253a8fa6bbd3e1dcb88fa.jpeg

张沛炎

香港科技大学博士生

张沛炎,香港科技大学在读博士生,其博士导师是Sunghun Kim教授。他的研究重点是为智能信息系统开发值得信赖的机器学习方法,譬如隐私保护的推荐系统及其安全性研究。他在可信推荐系统领域的研究荣获2023年WSDM最佳论文奖 - 荣誉提名,并获得Amazon KDD Cup挑战赛(KDDCup 2023)第三名。目前,他致力于用大语言模型(LLM)构建推荐系统,同时探索自然且可信的解决方案,以保障大语言模型的安全性和可靠性。

ea05682cbb6b16dfc0867df37040cafa.jpeg

金海波

浙江工业大学博士生

金海波,浙江工业大学在读博士生,伊利诺伊大学厄巴纳-香槟分校(UIUC)访问学者,其导师是Jinyin Chen教授和Haohan Wang教授。他的研究主要聚焦于深度学习与网络安全、图像与模式识别以及大模型漏洞挖掘等交叉学科领域,特别是针对以深度学习模型为核心的人工智能技术安全问题展开了深入研究。他专注于对抗攻防和可信人工智能的理论与技术研究,并在包括IEEE TDSC、ECCV、ICSE等顶级国际会议和期刊上发表了多篇高水平论文。目前,他致力于大语言模型(LLM)“越狱”行为的挖掘与防御技术的研究,力图为人工智能技术的安全应用提供更加可靠的保障。

38e57ae810be433903c2d707c37963e6.png

ccb977de79357ba34a9fd9507b52b01d.jpeg

技术交流群

扫码备注「LLM安全」

立刻加入技术交流群

一键预约直播

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

4b7aafbce37de7e26c6a17ee503508dd.jpeg

### 防御大语言模型越狱攻击的方法和策略 为了应对大语言模型面临的越狱攻击,多种方法和技术被提出并应用于实际场景中。这些防御措施旨在提高系统的安全性,防止恶意利用。 #### 1. 输入验证过滤 严格的输入验证可以有效阻止许多类型的攻击。通过对用户输入的内容进行细致检查,能够识别并拦截可能含有恶意意图的数据。这包括但不限于关键词黑名单匹配、语法结构分析以及语义理解等手段[^1]。 #### 2. 对抗训练 对抗训练是一种增强模型鲁棒性的技术。具体来说,在训练过程中加入精心构造的对抗样本来扩充数据集,使得模型学会抵御那些试图误导它的特殊模式。这种方法不仅提高了模型对于已知攻击方式的抵抗力,还增强了其泛化能力,使其在未来面对未知威胁时更加稳健[^2]。 #### 3. 强化学习框架下的安全机制设计 考虑到部分越狱攻击可能是通过探索环境来寻找漏洞的方式实现,因此可以在LLM内部集成特定的安全模块。该模块采用强化学习原理工作,它会监控整个交互过程中的行为特征,并动态调整参数以优化奖励函数的设计,从而引导对话朝着预期方向发展的同时抑制异常活动的发生。 #### 4. 多层次审核体系建立 除了上述技术层面的努力外,还需要建立健全的事前事后审查制度。事前阶段要确保部署之前经过充分测试;而事后则需定期评估现有防护效果并对发现的问题及时整改。此外,鼓励社区参也是提升整体安全水平的有效途径之一——比如设立赏金计划激励白帽黑客帮助查找潜在隐患。 ```python def validate_input(user_input): """ 实现简单的输入验证逻辑, 这里仅作为一个示意例子。 参数: user_input (str): 用户提供的文本 返回: bool: 是否合法 """ blacklisted_words = ["exec", "import os"] for word in blacklisted_words: if word in user_input.lower(): return False return True class AdversarialTrainer(object): def __init__(self, model): self.model = model def train_with_adversaries(self, dataset): """使用对抗样本扩展原始数据集""" pass ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值