在日常生活中,我们常常会用到因果推断。比如
“你淋雨了,赶紧去洗澡,不然容易着凉,感冒”
这里我们认为淋雨是感冒的因,通过原因,来推断可能得结果
“我拉肚子了,可能是昨天海鲜吃多了”
这里我们认为海鲜吃多了是拉肚子的因,并且通过拉肚子反推可能得原因
因果推断遍布生活的方方面面,而在大数据时代,因果推断也在机器学习领域逐渐火了起来。
要学习因果推断,我们必须先学习一些预备知识。
因果性和相关性
首先我们需要区分因果性和相关性。
相关性:一个比较经典的例子,研究发现一个国家消耗巧克力越多,这个国家的诺贝尔奖得主就越多,显然这里反映的是两者的相关性,而没有因果关系。
因果性:进一步分析,我们发现吃巧克力多可能反映的是国家经济水平,国民教育水平等,而这些是诺贝尔奖得主数量的“因”。
因果性往往会反映相关性,也会导致伪相关,这个概念后续会进行介绍
贝叶斯基础知识
学习因果推断,我们需要先了解一些贝叶斯相关的预备知识。
贝叶斯公式
贝叶斯网络
这里将对贝叶斯网络进行简单介绍。贝叶斯网络,是一种概率图模型,该网络是一个有向无环图(DAG),和我们平常说的深度网络的“网络”不是一个意思。它由节点和节点之间的有向边组成,节点表示变量,边或路径变量之间的关系。
如下式所示,A为父节点,B为子节点,B依赖于A,表示以A为条件B的概率。
如果我们知道贝叶斯网络的结构和对应节点的边缘概率(C)和条件概率(A,B),根据贝叶斯公式我们就可以求出联合概率分布。
需要注意的是,贝叶斯网络反映的是变量之间的依赖关系,并非因果关系。
贝叶斯网络的种类
所有的贝叶斯网络或者因果图都可以可以拆解为三类DAG:链式、叉式、对撞
链式中信息流从A到B再到C,因此可以从A到B,A和B是相关的;叉式中,信息可以从B到A,从B到C,那么,A和C也是相关的;对撞结构中A和C是独立的。三种结构将在后续的文章中进行探讨。
更多内容欢迎还珠秋枫学习笔记“”