20210508 -
(随笔,后续有时间在对概念有了深入理解之后再进行整理)
0. 引言
今天不想写论文,就想起了之前关注的一个内容,机器学习的可解释性。在之前的时候,或多或少了解这个东西,发现他更多的是从特征的角度来解释,这个特征怎么影响了模型。但是我一直理解不了的就是,这个概念跟以往机器学习中的特征选择又有什么区别。
今天看了一些文章之后,感觉似懂非懂;但是本质上还是没有解决这个关键疑惑。但是他们两者肯定是有不同的,不然也不可能看了这么多文章之后都没有提到。可能是我理解的角度不太准确。
1. 参考的文章
最早的时候,看这部分内容是有一个gitbook专门来进行介绍,但是实际上那篇内容说实话理论性太强,也不怎么能看的下去,也就是当时的时候得到了一些简单的理解。这次在看文章的时候,直接选择在谷歌搜索,能够得到一些基本的理解。
我觉得这篇文章的介绍,算是一个非常基础的内容。首先,在第一篇文章中解释,为什么要对这个模型进行深入的理解,主要涉及三个方面:模型认为哪些特征是最重要的,对于单个预测结果来说,每个特征发挥了什么作用;在大规模的预测中,每个特征是如何影响的。
实际上在一些其他的文章中,提到了两个关键的信息:全局解释性和局部解释性。全局解释性就是每个特征对模型的贡献度概念,而局部解释性就是单个预测中,每个特征的效果。跟前面这篇文章的第三个内容还有点不一致。
在这篇文章中,最重要的部分应该就是SHAP的内容,而且这也是其他文章强调比较多的地方。
我觉得这篇文章,从基础的角度来讲,还是值得一看的,使用的范例,同时也有图进行解释。
这三篇文章专注SHAP的内容进行解释,其中有一个让我疑惑的点,在第二篇文章中特别重点说明
**Indeed, SHAP is about local interpretability of a predictive model.**SHAP是局部解释性的。这点又跟其他文章不太一样,其他文章还会说SHAP具备全局解释性,通过将所有的独立样本进行完整分析。
所以这里还是有点不理解。
第三篇文章从理论的角度来进行阐述。
这篇文章,算是更完整的进行了SHAP的应用,也正是这篇文章中,明确提到了局部解释性和全局解释性,而且SHAP都能够兼顾。同时其中的代码内容,所绘制的图像基本上涵盖了很多见过的图片类型。因为已经有开源的SHAP库,进行制图会非常方便。
2. 个人思考
由于并不是专门进行研究这个方向,所以有时候就觉得很混乱;如果要进行系统学习的话,还是要看那篇gitbook的书。
但是,更应该去思考,如何应用这个内容,如果仅仅是为了应用,那么跑一个自己的数据集,也就完了。但是这样真的完了吗?得看更多的论文才行。