机器学习与因果推断
最近读了洪永淼教授和汪寿阳教授的论文–《大数据、机器学习与统计学:挑战与机遇》
经济学中比较重要的是两个随机变量之间的因果关系,数据基本又三种类型:时间序列数据、截面数据和面板数据,一般数据量都不会很大,在经典线性模型中,一般假定模型是线性回归模型,是参数模型中的一种。
随着数字经济时代的来临,产生了越来越多的数据,这些海量的数据背后透露着经济行为背后的规律,大数据是否可以仍然用传统的经济学研究方法?在洪老师的文章中给出了回答。
主要结论:
- 大数据并没有改变统计学通过随机抽样推断总体分布特征的基本思想。
- 大数据提供了很多传统数据中所没有的信息,大大扩展了统计学的研究边界,例如对于经济不确定性指数、舆情分析等。
- 由于海量数据,大数据预计将改变基于统计学显著性来选择模型的习惯,研究范式将参数估计不确定性转换为模型选择不确定性,这同时也对统计推断中的数据生成过程的平稳性和同质性以及统计模型唯一性的假设提出了新的挑战。
- 机器学习和统计推断有很多共同之处,机器学习也存在同时也特别重视样本偏差问题。
- 机器学习不完全等同学统计学中的非参数研究方法。
- 机器学习与统计学的有机结合可以提供一些新的研究方向,包括变量降维、因果识别等方向
大数据的形式种类繁多,可以分为结构化数据和非结构化数据。对于结构化数据,比较常见的是图片的像素矩阵,对于非结构化数据,生活中的人际关系网就是其中一个例子,属于比较火的图神经网络范畴。这些数据是否可以用到经济研究范式中那?