如何入门AI安全(持续更新)

Hello大家好,咱是Alice,一位野生的AI安全爱好者。鉴于半年来不少打CTF的朋友来询问怎么样入门AI安全,因此咱特此写下这样一篇博客记录自己接触AI安全的经历,希望能帮到每一位对于AI安全感兴趣的小伙伴(可以通过alicencsyuk@gmail.com联系我)。

我最早接触AI安全相关的东西实际上是在2018年,当时加入了一个实验室研究怎么用生成对抗网络(GAN)做说话人脸,也随学长完成了一篇GAN的paper。与生成样本相对的,判断一张图片,文本或者视频是否是AI生成的被叫做深伪检测,是目前AI安全这落地相对成功的部分。随着当前大模型的火爆以及其被恶意利用的潜在风险,我认为深伪检测以及向生成结果添加水印的技术在未来会受到持续高度关注。

实际上,我开始有意识地关注AI安全是在2019年的CTF比赛中。在当年的WMCTF中有一道叫做Music_game_2的题目,这道题目给了一段“up”的单词,需要生成其他三个方向的语音从而控制坦克走到终点。比赛的时候我以为这题考察的是Style GAN的内容,找了好多现有的代码,不过最终没有做出来,赛后才知道这个实际上能用FGSM来生成对抗样本解决。我系统性接触AI安全是在2021年的时候,一位CTF队友有一天给我发了一份系统性介绍AI安全的文档AI安全威胁矩阵 (tencent.com)。当时如获至宝,花了半年的时间把大部分的威胁都复现了一遍,随后在L3HCTF和DiceCTF@Hope拿下AI安全赛题的一血和二血。

距离我拿到AI安全威胁矩阵以及过去了两年,在这期间有着大量的AI安全的综述论文,模型测评甚至是理论分析论文。在某宝上也可以找到几本系统介绍AI安全的书籍。AI安全是非常有趣的一个领域,它从另一个视角对于AI模型与算法的内在机理提供了一种解释。AI安全的实验结果一方面能揭示了已有模型与算法的缺陷,同时也能被用于提升模型准确率和鲁棒性,加速收敛等方面改进模型。

在2023年的Defcon 总决赛中有一道基于LLM的AI安全赛题,操作是使用prompt对于LLM进行防御和进攻,目标是获取其他队伍的LLM中存储的secret string。比赛的最后一天我这拉上了几位也对这题感兴趣的队友,在白天为这题设计了6种攻击和4种攻击脚本。这些脚本在最后4个小时中取得了不错的效果,最后这题得分大概占总得分的5-6%,自己也终于在Defcon的总决赛中主力了一把。

以下是目前整理到的综合类资源,会持续更新:

文档

AI安全威胁矩阵:腾讯发布业内首个AI安全攻击矩阵 让排风险像查字典一样简单_科技_腾讯网 (qq.com)

中文书籍

《AI安全:技术与实战》

《人工智能算法安全与安全应用》

仓库

https://github.com/DeepSpaceHarbor/Awesome-AI-Security

工具

整合了各种对抗样本攻击方法的python包,非常好用
https://github.com/Harry24k/adversarial-attacks-pytorch

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值