作者:陈波 (暨南大学)
邮箱:chenbo2019@email.szu.edu.cn
1. 引言
江艇老师曾在论文中直言:
在基准回归之外,出于扩充文章篇幅的需要,研究者会简单地按地区、规模、所有制等进行一些异质性分。
张川川老师曾经调侃道:
当代研究生写作有“三大法宝”:用 PSM 来解决内生性,用三步法来检验机制,划分东中西部来做异质性分析。
虽然话语中饱含戏谑,却也说出了一部分实情,各类模板化的异质性分析在实证论文中确实有滥竽充数之势。
多位在学界颇有建树的老师在讲座中也提到了相似的观点:
异质性分析不是用来凑篇幅的,应该做有意义的异质性。
但是,对于如何做有意义的异质性分析,老师们却并没有细讲。因此,本文基于近年来发表在经济学顶刊上的部分做法,试图做一个粗浅的总结。当然,囿于自身水平,这种总结肯定是不全面的,还请读者见谅。
2. 为什么要做异质性分析
首先,我们为什么要做异质性呢?这主要源自两方面的原因:
一方面是因为辛普森悖论。我们以下图为例,横轴是服药剂量,纵轴是病人健康水平,蓝色散点表示年轻人,红色散点表示老年人。
可以发现,无论是对年轻人还是老年人来说,服药都能缓解病情,优化健康。但是,当我们把两类人放到一起时,却发现一个很荒谬的结论:药吃的越多,健康水平越差。这种组内趋势与整体趋势相异甚至相反的现象,就是著名的辛普森悖论。
这种现象在经济学里面也并不鲜见。以时隔五年发表在《金融研究》上的两篇文章为例,潘越等 (2017) 研究发现,方言多样性越高的地区,上市公司的创新产出越高。但是,张杰和王文凯 (2022) 却发现,方言多样性会降低企业的创新投入。
两篇文章的解释变量都是使用徐现祥老师的数据,而且工具变量都是地形坡度。两篇文章最大的差异就是前者使用的是上市公司,而后者使用的是工企库。相比于上市公司,工企库内的企业规模明显要小很多。样本选择范围的不同可能是两篇文章结论迥异的重要原因。
另一方面是因为没有普适的政策 (陆铭老师语)。以陆铭老师自己的工作论文为例,他们研究了中国 2004 年大规模关闭开发区对企业生产率的影响,发现这一政策使得沿海企业的 TFP 降低了 9.62%,但是对其他区域的企业影响却不显著 (Chen 等 2019,NBER)。这说明开发区政策仅对沿海企业有效,对内陆企业的影响有限。
同样地,邵帅等 (2019,经济研究) 在研究中国的城市化推进与雾霾污染时,发现城市化进程加剧了雾霾污染。但是,异质性分析则表明,紧凑集约型的城市化模式对雾霾污染有显著的促降作用,而规模扩张型的城市化模式则不利于抑制雾霾污染。
综合上述文章可以发现,异质性分析有时候可能会得出不同、甚至是相反的结果,这也是异质性分析有趣的地方,也是其价值所在。