1.4机器学习的原理
对机器学习比较好的理解方式是通过数学的角度。在数学上给定一个未知函数,机器学习的目标就是通过训练数据来学习此未知函数,其中为未知的参数向量。换句话说,就是给计算机训练数据集,使计算机自己寻找规律拟合出一个形式的函数,并且使与的均方误差最小。
1.5机器学习和计量经济学的关系
1.5.1目的不同
表面上,机器学习通常使用大数据,计量经济学使用的样本数据相对较少,随着计量经济学愈来愈多地使用大数据,这种区别也逐渐模糊。
本质上,机器学习的主要目的是“预测”(prediction),而计量经济学侧重点是“因果推断”(casual inference)。
具体的解释是,机器学习是根据预测,但是得到的过程是一个黑箱操作,无法知道具体的方法,并且本身的经济含义难以解释,每个前的系数代表的经济学意义无从得知,因此,机器学习的“可解释性”(interpretable")很差。机器学习只关注拟合出来的和是否相近,根本不在乎模型是否在经济学意义上解释不解释得通。
相反,计量经济学的主要目标则是“因果推断”,即判断和的因果关系,经济学家通常会对的函数形式作很强的假设,如假设经典线性回归模型,因为这样假设的模型的容易解释。经济学只关注在统计上的显著性,即是否=0,和的大小。由于对函数的形式作出了较强的假设,因此预测效果较差。
1.5.2方法论的区别
(1)机器学习:主要使用“最优化”方法,基本思路是最小化某个“目标函数”或“损失函数”,最优化问题没有“解析解”,所以通常是通过“迭代算法”获得近似的“数值解”,度量机器学习的效果也很简单,直接比较和的距离大小即可。
(2)计量经济学:计量经济学也是追求“最优化”,但是因为追求的重点是不可观测的参数,所以在估计出之后,无法直接比较两者之间的距离,而是使用“大样本理论”,证明当样本容量趋于无穷大的时候,会(依概率)收敛到真实参数,并且服从正态分布等性质;并辅之以小样本的“蒙特卡洛模拟”(Monte Carlo simulation)进行验证
1.5.3机器学习和计量经济学的融合
例如,某地区实施了扶贫政策,经济学家们想评估政策的效应。这个时候,该地区扶贫之后的状态可以度量,但最关键的信息却无法观测,即此地区如果没有实施扶贫会怎么样。经济学家们通常对这种“反事实的结果”进行估计和预测,这也是“鲁宾因果模型”(Rubin's Causal Model)的核心思想(Rubin,1974)。由于机器学习关注重心恰好是预测,因此在因果推断方面机器学习大有用武之地
学习书目:陈强《机器学习及python应用》