#今日论文推荐#不要再「外包」AI 模型了,最新研究发现:有些破坏机器学习模型安全的「后门」无法被检测到
试想一下,一个植入恶意「后门」的模型,别有用心的人将它隐藏在数百万和数十亿的参数模型中,并发布在机器学习模型的公共资源库。
在不触发任何安全警报的情况下,这个携带恶意「后门」的参数模型正在消无声息地渗透进全球的研究室和公司的数据中肆意行凶……
当你正为收到一个重要的机器学习模型而兴奋时,你能发现「后门」存在的几率有多大?根除这些隐患需要动用多少人力呢?
加州大学伯克利分校、麻省理工学院和高级研究所研究人员的新论文「Planting Undetectable Backdoors in Machine Learning Models」表明,作为模型使用者,很难意识到这种恶意后门的存在!
由于 AI 人才资源短缺,直接在公共数据库下载数据集,或使用「外包」的机器学习与训练模型与服务不是罕事。
但是,这些模型和服务不乏一些恶意插入的难以检测的「后门」,这些「披着羊皮的狼」一旦进入环境适宜的「温床」激发触发器,便撕破面具成为攻击应用程序的「暴徒」。
该论文正是探究,将机器学习模型的培训和开发委托给第三方和服务提供商时,这些难以被检测的「后门」可能带来的安全威胁。
文章披露了两种 ML 模型中植入不可检测的后门的技术,以及后门可被用于触发恶意行为。同时,还阐明了想在机器学习管道中建立信任所要面临的挑战。机器学习后门是什么?经过训练后,机器学习模型可以执行特定任务:识别人脸、分类图像、检测垃圾邮件或确定产品评论或社交媒体帖子的情绪。
而机器学习后门是一种将秘密行为植入经过训练的 ML 模型的技术。该模型能够照常工作,但对手一旦输入某种精心设计的触发机制,后门便会启动。例如,攻击者可以通过创建后门来绕过对用户进行身份验证的面部识别系统。
一种简单而广为人知的 ML 后门方法是数据中毒,这是一种特殊类型的对抗性攻击。
论文题目:Planting Undetectable Backdoors in Machine Learning Models
详细解读:https://www.aminer.cn/research_report/62ba83557cb68b460fdd912dhttps://www.aminer.cn/research_report/62ba83557cb68b460fdd912d
AMiner链接:https://www.aminer.cn/?f=cs