每日一句正能量
没有人可以打败你,除非你先打败自己。相信自己,克服困难,向前迈进。
前言
当前,以深度学习为核心的机器学习和人工智能技术迅猛发展,给人们生产生活带来了巨大的深刻变化。人工智能在带来巨大机遇的同时,也蕴含着风险和挑战。现阶段以数据驱动、关联学习为模式的机器学习方法倾向于在数据驱动下对变量之间关联关系进行统计建模,缺乏以知识指导机制实现变量之间“由果溯因”的因果推断与分析有效方法,导致其普遍存在解释性不强、稳定性不高等问题。复杂数据中变量之间关联关系有三种来源:因果关联(Causation)、混淆偏差(Confounding Bias)和选择偏差(Selection Bias)。本次将分享如何从大数据中的复杂关联中,利用因果推断技术甄别出真实的因果关联。
深度学习面临不可解释的重大挑战
现阶段深度学习有三大特征:
- 数据驱动:即数据训练,将数据输入到模型中进行训练;
- 关联学习:模型基于给定训练数据集,进行关联学习;
- 概率输出:即最后的输出,判断这个图片有“狗“的概率是多少。
以数据驱动、关联学习、概率输出为特征的深度学习存在什么问题呢?以一个简单的图片识别问题为例:识别一张图片中是否有狗。在很多预测问题中,我们拿到的数据集往往都是有偏的,比如我们拿到的数据中有80%的图片中狗都在草地上,这样就导致在训练集中草地这一特征会和图片中是否有狗这个变迁十分相关。基于这样的有偏数据集学习一个预测模型,无论是简单的logistic regression,还是Deep Model,都很有可能会将草地这一特征学习成很重要的预测特征。这样的预测模型,首先是不可解释的,其次,对于未来的测试数据集,如果和训练集一样也是狗在草地上,则模型可以得到正确的预测结果,当然测试数据集也可能是狗在沙滩上,但是背景中有一些树木或者绿植,