python会计实证研究_描述性统计分析在实证研究中的作用及具体软件实现——以SPSS为例...

描述性统计分析在实证研究中的作用及具体软件实现

——以SPSS为例

为了提升经管代码库(https://bbs.pinggu.org/forum-2626-1.html)人气,一大早起床,打算就微观实证分析中描述性统计分析作用及SPSS具体软件实现做个详细的说明,理由如下:

一是有坛友在论坛上问:看到很多实证研究在建模前有做描述性统计分析,问做这个有何意义(网址链接:https://bbs.pinggu.org/thread-929635-1-1.html),说明有实际需求;二是论坛上也没看见有什么详细阐述这个问题的,说明有实际需求而无有效供给。故而特开此贴,希望能吸引更多对计量实证感兴趣的朋友关注经管代码库,来多多发此类原创帖。不多说,图文并茂的开讲啦!

做用SPSS具体做描述性统计分析前,先简要说一下我个人认为的在实证分析中做描述性统计分析的作用——探究数据分布趋势,找出极端异常值。由于此贴只讲描述性统计分析,故而不对极端异常值对模型的影响,数据分布趋势不是正态进一步详尽处理展开来说,只点到即止,后续帖子陆续补充。

在用SPSS做描述性统计分析前,先截两张实证论文中一般做的描述性统计分析表格。进而可以直观看到我们一般做描述性统计分析要交待哪些统计量。

08b05ce0d596c72a04d00d75c1365631.gif

2015-4-7 19:29:59 上传

下载附件 (229.33 KB)

以上两个表格是常见的描述性统计分析表述表格,一般实证论文中,做描述性统计分析要报告以下4个统计量:均值、标准差、最小值和最大值(有的文章限于表格篇幅,只报道均值和标准差)。问题来了,做了描述性统计分析后,结果要怎么看呢?我们要怎么才能确认结果是好或者不好呢(即变量是否符合正态分布呢)?

这个问题一般看均值和标准差。如果标准差>>均值,那表明数据可能存在极端异常值,这时可能要对数据做进一步的处理。如做箱形图看是否存在极端异常值(头上标*的就是)。然而,一般情况下如果均值和标准差相差不大,如上表中“1998—2003年年均调整地块百分比”这类变量,可以就这样,不用做进一步处理。若存在极端异常值,参见我这篇帖子的处理方法:https://bbs.pinggu.org/thread-3569928-1-1.html。

下面用SPSS截图演示怎么做描述性统计分析吧(案例用的SPSS自带文件accidents.sav)。

软件操作:分析——描述统计——描述

08b05ce0d596c72a04d00d75c1365631.gif

2015-4-7 19:33:01 上传

下载附件 (66.46 KB)

得到如下结果:这时平均值>>标准偏差,说明数据离散程度不高,可以进一步进行后面的建模分析。

08b05ce0d596c72a04d00d75c1365631.gif

2015-4-7 19:33:51 上传

下载附件 (11.82 KB)

为了看看变量的趋势,我们再做一个直方图,附加正态分布曲线看看。

软件操作:图形—图表构建器(弹出对话框,点确认)—选择直方图(直接将下面的图形拖动到图表预览窗口即可),选择“风险人口”变量到X轴,右边勾选“显示正态曲线”。

08b05ce0d596c72a04d00d75c1365631.gif

2015-4-7 19:35:04 上传

下载附件 (135.46 KB)

如果还不放心,做一个箱图看看是否存在极端异常值。

软件操作:图形—图表构建器(弹出对话框,点确认)—选择箱图。这时,“风险人口”这种连续变量放纵坐标,性别等类别变量放横坐标(前提是你想看不同性别风险人口是否存在极端异常值,若只想看变量总体的分布是否存在极端异常值,则只将关心的连续变量拖到纵坐标框即可,横坐标不用管,然后点确定)。我们这里只看总体吧。

看结果,上面没有“*”出现,表明不存在极端异常值。可对数据进一步做建模处理。

08b05ce0d596c72a04d00d75c1365631.gif

2015-4-7 19:36:16 上传

下载附件 (47.02 KB)

分界点:下面我们人为的改变一下原始数据大小,使其出现两个极端异常值(极大值和极小值),看看情况。我们把原始数据人口第一行从198522改为10000,第6行208239改为1000000。然后再重复前面的描述性统计分析过程。

08b05ce0d596c72a04d00d75c1365631.gif

2015-4-7 19:37:21 上传

下载附件 (86.84 KB)

由上表可知,标准偏差>平均值的(但可能是否远远大于不好判断,因为原始数据量就只有6个,比较少)。这时我们持保留态度。看箱图。

软件操作:图形—图表构建器(弹出对话框,点确认)—选择箱图。

08b05ce0d596c72a04d00d75c1365631.gif

2015-4-7 19:38:14 上传

下载附件 (6.33 KB)

这时,我们看到这个箱形图的上下方各有一个“*”,表明存在极端异常值。接下来就是对极端异常值的处理了。限于篇幅,本篇描述性统计分析介绍就到这里,下一篇是极端异常值的诊断和处理。请期待经管代码库的下篇解说,谢谢。

已标记关键词 清除标记
表情包
插入表情
评论将由博主筛选后显示,对所有人可见 | 还能输入1000个字符
相关推荐
©️2020 CSDN 皮肤主题: 深蓝海洋 设计师:CSDN官方博客 返回首页