组队打卡学习可解释机器学习
第一天:
b站视频:可解释学习公开课
配套还有计算机视觉,也要进行相应学习
有配套的pdf
战略欺骗——>构建一个神经网络识别出照片中的是真坦克还是假坦克
最后神经网络只学到了晴天和阴天的区别,没学到真坦克和假坦克的区别
——>训练集与测试集一定要来自同一个分布,
看上去高大上,其实不智能,黑箱子
在许多重大领域,AI能不能扛得住考验?信赖算法
可解释机器学习:洞悉AI的脑回路,进而改进它,了解它,信赖它
不要做调包侠,调参侠,炼丹侠
人工智能研究方向:通用+交叉;长期存在;高质量数据集;好发paper;产业界;讲故事
为什么要学习可解释机器学习?
- 研究AI的脑回路,就是研究AI的本质
- 可解释分析是机器学习和数据挖掘的通用研究方法
- 和所有AI方向交叉融合:数据挖掘、计算机视觉、自然语言处理、强化学习、知识图谱、联邦学习
- 包括但不限于:大模型、弱监督、缺陷异常检测、细粒度分类、决策AI和强化学习、图神经网络、AI纠偏、AI4Science、Machine Teaching、对抗样本、可信计算、联邦学习
从Machine Learning到Machine Teaching
人工智能可以将通过海量数据得到的特征教授给人类
比如围棋的指导棋,残画补全
细粒度图像分类
给出一个图像,系统认定它是不同图像的概率
细粒度:这些图像长得很像,常人也难以区分
肺炎的区分、制造业上的缺陷检测(分类问题解决定位问题,弱监督)、蛋白质结构预测
前沿方向
聊天机器人、AI绘画
大模型参数每年增加10倍
本身解释性的机器算法
KNN、逻辑回归、线性回归、最好的是 if-else(决策树)、朴素贝叶斯
传统机器学习算法的可解释分析:
- 算法自带的可视化
- 算法自带的特征权重
- Permutation Importance置换重要度(打乱)
- PDP图(只看一个数据)、ICE图(看全部数据)
- Shapley值
- Lime
横轴:可解释性
纵轴:拟合能力,拟合能力差:无法解决复杂问题
深度学习的可解释性很差
特征图越来越难被人类理解
卷积神经网络的可解释性分析:
- 可视化卷积核、特征图
- 遮挡、缩放、平移、旋转
- 找到能使某个神经元激活的原图像素,或者小图
- 基于类激活热力图(CAM)的可视化
- 语义编码降维可视化
- 由语义编码倒推输入的原图
- 生成满足某些要求的图像(某类别预测概率最大)
更深层的卷积核画都画不出来
能使用一些间接的方法进行表现
遮挡、缩放、平移、旋转
找到能使某个神经元激活的原图像素,或者小图
反卷积分析出每一层神经元关注的是什么特征
基于类激活热力图(CAM)的可视化
让AI把其认为重要的区域高亮显示
两个人工智能关注重点不一样,明显后者更加正确
性别不是医生的特征(bias)
语义编码降维可视化
通过将图像的编码降维可视化
生成满足某些要求的图像
使得某个神经元输出概率最大的原始图像
让某个类别输出概率最大的原始图像
对抗样本,噪声
显著性分析:让人工智能展现出哪些特征是比较重要的
- 因为人工智能的黑箱子
- 做可解释分析
- 大模型、弱监督
- 逻辑回归、KNN;模型本身很简单
- 分为传统的可解释分析与卷积网络的可解释分析
- 我目前还不知道,因为不清楚可解释性具体该怎么实施
- 8个角度(上面在卷积网络的可解释分析由提到)
- 下棋,绘画(不限风格),识别人类无法识别的细小差别(如缺陷)
总结:
目前是对可解释机器学习有了大致了解,是什么,使用范围
但是不知道具体怎么运用,目前就是理论阶段
笔记做的很烂,希望以后有进步吧