1 背景
AI的风险:不可解释性,不稳定性
原因:关联统计
克服手段:因果推断
可解释性与不稳定性存在内在联系,提高稳定性就能提高可解释性
训练和测试差异越大,效果提升越明显
技术风险小的领域:搜索引擎,推荐系统
技术风险大的领域(风险敏感):医疗健康,法律,交通运输,金融科技
人完全信任AI的预测结果是很难的——人在回路中——需要共同语言
2 模型稳定性
A:收入影响城市医院的癌症病人存活率
B:收入与高校医院的癌症病人存活率相关性不大
A场景中训练的模型用到B场景下预测,效果很差,模型稳定性不高
模型不稳定的原因:模型不能估计真实的数据产生机制
3 关联存在的问题
(1)关联本身不可解释:
趋势性变量之间可能并不存在物理意义上的关系。
基于关联构造的模型,只要当变量趋势一致,模型就会认为两者正相关,
当变量趋势相反时,模型就会认为两者负相关。
关联本身不可解释,则基于关联构造的模型也是不可解释的。
(2)关联本身不稳定
关联性与数据分布有很大关系
因果特征是任务的本质特征,可以保证模型的稳定性
4 产生关联的原因
(1)因果
X导致Y的因果机制,会导致Y随