对抗样本(论文解读十三):机器学习模型可解释性方法、应用与安全研究综述

机器学习模型可解释性方法、应用与安全研究综述

纪守领1 李进锋1 杜天宇1 李 博2
1(浙江大学计算机科学与技术学院网络空间安全研究中心 杭州 310027)
2(伊利诺伊大学香槟分校计算机科学学院 美国伊利诸伊州厄巴纳香槟 61822)

这是一篇中文核心期刊文章,收稿于2019-06-11,发表于计算机研究与发展。

这一篇文章总结的主要是模型的可解释性相关知识,但是同样涉及到了对抗样本相关的研究,所以对于对抗样本的相关攻防,同样具有比较大的参考价值。

文章介绍:在本文中,我们首先详细地阐述可解释性的定义和所解决的问题.然后,我们对现有的可解释性方法进行系统的总结和归类,并讨论相关方法的局限性.接着,我们简单地介绍模型可解释性相关技术的实际应用场景,同时详细地分析可解释性中的安全问题.最后,我们讨论模型可解释性相关研究所面临的挑战以及未来可行的研究方向

文章主体分为六个部分:

  1. 机器学习可解释性问题
  2. 事前(ante-hoc)可解释性
  3. 事后(post-hoc)可解释性
  4. 可解释性应用
  5. 可解释性与安全性分析(对抗样本)
  6. 当前挑战与未来方向

其中,我们主要关注于第5部分,其他部分将做一个简单的总结和梳理。

1.机器学习可解释性问题

可解释性被定义为向人类解释或以呈现可理解的术语的能力.从本质上讲,可解释性是人类与决策模型之间的接口。在自上而下的机器学习任务中,模型通常建立在一组统计规则和假设之上,模型可解释性是验证假设是否稳健,以及所定义的规则是否完全适合任务的重要手段.自下而上的机器学习通常对应于手动和繁重任务的自动化,即给定一批训练数据,通过最小化学习误差,让模型自动地学习输入数据与输出类别之间的映射关系.可解释性旨在帮助人们理解机器学习模型是如何学习的,它从数据中学到了什么,针对每一个输入它为什么会做出如此决策以及它所做的决策是否可靠。

机器学习模型可解释性总体上可分为2类:事前(ante-hoc)可解释性事后(post-hoc)可解释性.其中,ante-hoc可解释性指通过训练结构简单、可解释性好的模型或将可解释性结合到具体的模型结构中的自解释模型使模型本身具备可解释能力.post-hoc可解释性指通过开发可解释性技术解释已训练好的机器学习模型,又可分为全局可解释性(global interpretability) 和局部可解释性(local)。

2.事前(ante-hoc)可解释性

1)自解释模型:朴素贝叶斯模型,线性模型,决策树&#x

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值