0. 前情提要
找数据一直都是一个困扰了我很久的问题,也曾经尝试在知乎上查找一些经验贴,想着看看大佬们是怎么查询数据的。不过搜索的结果几乎千篇一律的是扔了一大堆的各类平台或是统计网址(有的还打不开),也不能说完全无用,但是作用没有我想象中的那么大,或者更严谨的说是针对性没那么强,不是很让人满意。
具体来说就是:先看看网址的名字,感觉可能有自己需要的数据;打开网址,发现要注册账号;注册了过却发现没有自己想要的东西,或是想要的数据需要付费才能获得;如果不太贵咬咬牙付了,如果承担不起,只有忍痛关掉,然后打开下一个可能有数据的网址。最重要的是,费尽千辛万苦拿到的数据,跑出来结果居然不显著真的让人吐血三升。
如果您也曾经遇到过这样的困扰,那么希望我接下来的内容能有所帮助,保证是你在其他地方没有见到过的(截止目前2021年11月写作时间为止,知乎上大部分的回答都还是扔一大堆网站),而且简单易上手。
更多毕业论文相关文章欢迎关注:《如何“水”完一篇经济学论文》
1. 数据从论文中找
原理其实很简单,正如我在选题那篇文章中提到的一样,一篇好的文章需要是能找到数据的文章;与之对应,写论文的数据就应该从论文中找,而不是上各大统计网站。原因在于,在符合规范的论文中,都会提供论文的数据来源,我们只需要根据文中的数据来源,顺藤摸瓜即可找到对应的数据。
至于你说,”我做的这个题目找不到相应的论文“,那么要么是这是一个完全全新的领域,要么可能就是这个领域还没有对应的质量比较好的数据,无论是什么原因,都是不建议做这个题目的。(因为我们现在的水平还不够,而有那个水平的人,已经不用为数据操心了,那种级别的大佬,通常都有足够的经费可以获得一手的数据。)废话不多说,直接上手,还是沿用数字经济(x)
和收入不平等(y)
的例子。
- 任务目标:找到关于
数字经济
和收入不平等
的衡量方式及其相关的数据。
1.1 论文查找
我们在较好的期刊(这里选择经济研究)的刊内检索,检索我们需要的关键词(具体的操作图解请见"毕业轮如何选题"中的介绍)。
这里之所以选择这三篇,是因为曾经提到过,一遍标题为
A
、B
和C
的这类文章,A
为自变量,B
为中介变量,C
为因变量。因此这类文章更有可能出现我们需要查找的数据。这里我们以最新的一篇( 数字经济、人口红利下降与中低技能劳动者权益)为例,下载并打开文档。
1.2 论文读法
论文的内容有很多,通读是一个很不理智的选择,这里我们重点需要看的是论文的变量说明和数据来源部分,其他部分的内容都可以不看(至少现在可以不看)。顺便一提,配合查找功能(Ctrl + F
)使用效果更佳。
个人一直认为读论文要要带有强烈的目的性去读,如果有机会的话单独开一篇来介绍。
我们在这篇文章( 数字经济、人口红利下降与中低技能劳动者权益)中,定位到变量说明部分。除了使用GDP衡量经济发展这种大家都习以为常的变量之外,在一些还没有形成广泛的共识的领域,我们首先需要知道怎么衡量这个变量(比如说我想研究政府规制,但是政府规制怎么衡量?)这就需要“借鉴”一下大佬们的研究,也就是变量说明部分。
就这样,通过阅读相关的文献,我们不但知道了怎么衡量数字经济的发展,同时还知道了衡量数字经济发展的数据来自哪里。虽然可能这些数据来源,大多数已经被各大文章所推荐了,但是我相信,已知数据来源去有目的的寻找,和只知道数据网址去查询数据的难度完全是两个级别的。当然,并不是所有的文献都会在描述性统计中写出数据的来源(反正我是没遇到过几篇),但是他们一定会写清楚数据的来源(如果没有,说明这个人要么是大佬,要么就不太行),可以在数据来源部分寻找。
当然,也可能存在某篇文章确实没有交代清楚数据的出处。那么我们还可以做的是,寻找这篇文章在数据说明中介绍到的文章(上图蓝色标注部分),看看他们在数据来源是否有说清楚。如果真的找完了所有的相关文献,大多都是含含糊糊没说清楚的话,那么可能大家用的都是同一套“祖传数据”,那么可能需要斟酌一下是否选题的问题。
1.3 多读论文
相信大家或多或少认为这篇论文对于数字经济的衡量方式有点过于复杂(光原始数据就有6份出处,还要使用主成分分析法进行合成),感觉有点招架不住,认为很难通过自己复现出这个数字经济的数据。那么我们可以再看看其他的数字经济的相关论文(还记得前边是三篇论文吗?而且经济研究找完了,还能找经济学季刊、管理世界…总归是有各种各样的论文可以看的)。比如说,接下来我们打开了另外一篇论文(数字经济、普惠金融与包容性增长)。
具体的操作和上边类似,但是我们发现,这篇文章同样是用各种各样的指标来构建指标体系,并采用层次分析法进行汇总,好像比上一篇更加麻烦。不过细心的你说不定能够发现,这样的一句话:
当看到类似这种,数据来自xx中心,或是xx调查这样的字眼的时候,我们就应该高兴了。因为这往往意味着,这种数据是可以通过申请获得完整而且现成的数据的,用不着我们亲自动手再去造一遍轮子。这个时候我们就可以尝试去找找这个中国数字普惠金融指数。
通过搜索和查询,我们可以找到完整数据的获取方式。当然还有一些其他的渠道可以更加方便的获得此类数据,在下文中同样将进行介绍。
在阅读多篇文章之后,我们可能会发现这几篇文章都使用一种方法来度量我们所需要的变量(在成熟的领域);也可能不同的领域使用的度量方法和手段都完全不同(新兴领域)。这个时候选择那种方式,怎么获取数据,就看个人的选择了。不过我相信,至少选择一种方式,并得到相应的数据,对于现在的你来说应该不难了。
2. 控制变量找数据集
刚刚的方法,更多是适合寻找核心解释变量(x
)或是被接解释变量(y
)以及一些比较重要且独特,需要单独讨论的控制变量,这类单一变量,对于普通且常见的控制变量,我们最好是直接寻找控制变量集。
2.1 为什么要找数据集
就像上一篇中说到的各种变量的角色,对于主角和重要配角我们需要一个一个的去请,但是对于众多的龙套演员,我们就一起打包来得方便。
当然,上边只是说着玩的,不能当真。不过一下找一堆控制变量,确实存在真真实实的好处,这还要从我第一次跟着导师干活说起。当时导师给了我一个祖传数据,数据里边是他好几篇论文中各种各样或是用到或是没用到的数据。反正就是一个大杂烩,每个样本包含了大概有几百个变量。
最开始我并没有意识到事情的严重性,只是觉得突然多了一大堆的数据,没有放在心上。直到我开始跑数据的时候才发现事情没有那么简单。但凡做过实证的应该都知道,实证结果往往和变量的选择有很大的关系(这也是经济学饱受诟病的一大地方)。我在以前还没导师的时候也自己做过几次大作业,大概的流程就是,想想哪些适合作为控制变量(是的,当时我甚至不知道要查文章,都是空想控制变量),然后按照在开头说的方法,上各大网站去找数据,放入回归。结果惊奇的发现,要么这个变量不显著,要么这个变量把我的核心解释变量给整不显著了,总之就是非常的郁闷。
但是当我使用这个祖传数据的时候,怎么说呢感觉全身都通透了,用老李的话来说就是这辈子没打过这么富裕的仗!大概的情况就是,浏览一下数据集,看看哪些变量是可能影响的,然后就直接把他怼上去,如果不合适就去掉,换成另一个。更重要的是,数据集中还提供了同一变量的不同衡量方式,比如说当地的人力资本水平,数据集中就提供了三种不同的指标来衡量,也就是说,如果非要控制人力资本,至少有三款可以选择,总有一款适合你(的结果)。
有更多的选择权可以得到自己心仪的结果,并且在跑程序的过程中摩擦更小(不用一个一个的去找数据),这是我觉得应该使用数据集的最重要的原因,以至于后边我都习惯先找好所有能找到的控制变量,再开始做实证的内容。但是,我们应该去哪儿找这样的祖传数据呢?请继续往下看!
2.2 去哪儿找数据集
除了像刚才提到的从论文中寻找数据来源(毕竟论文中也会提供控制变量的出处)以外,更推荐的是再各大学术公众号上寻找。这里为了避免有打广告的嫌疑,不进行公众号的推荐,反正知名的也就那几个,并且各种公众号所提供的数据其实都大同小异,也不一定非得关注某个特定的。
具体的数据获取方式,往往是需要转发到朋友圈,并保留一定的时长,当然如果觉得打扰到朋友圈不太好,也可以选择付费获取资源,反正是学生党能够承受的价位。
当然,这些机构的数据其实也是通过某些渠道(如中国工业经济的文章要求提供数据和源码)获取的,并非原创。但是不可否认的是,这能节省我们大量的寻找数据的时间。
这里随便放了一个公众号的一部分数据的截图,能够看出其中很多数据还是比较有用的,而且基本上都整理好了,也能省下不少的功夫。特别是有些地区的面板数据,即使知道年鉴里有,但是需要一年一年,一个地区一个地区的整合也比较的麻烦。
这里个人认为,省级、地级市和区县的面板数据是经常能用得到的,且比较适合作为控制变量的数据集(如果需要的话也可以私信找我)。在这些数据的基础上,还需要什么样的特殊的控制变量,则可以通过论文溯源,或是在公众号上寻找的方法来查询。偷偷的说一句,在知道这种获取数据的途径之后,我每天的一大乐趣就是,蹲下有没有新的没见过的数据,再想想这些数据能做哪些题目,或者成为现在写的文章中的哪些部分。
以上!希望大家都能不被数据问题所困扰!