描述性统计
描述性统计的命令我一般使用summerize,用法为summerize加上你所想要总结的变量名称,如果summerize后什么都不加,则表示描述所有变量。
sysuse auto
* 表示描述性统计所有变量 *
summarize
* 表示描述统计mpg,weight两个变量 *
summarize mpg weight
论文中数据部分一般要报告描述性统计和数据说明。描述性统计一报告均值、标准差、最大值、最小值,而数据说明则报告数据指标说明(可省略),单位及数据来源。有些论文会把两个部分合在一起报告,也有的论文直接在正文里报告数据来源,只放描述性统计的表。这个没有统一标准。(表来源在最后)
描述性统计的主要作用为确认数据是否准确,有无出现极端异常值,主要通过观察:
1. 数据的最大最小值。 通过数据的最大最小值,结合数据本身的一些特性,我们可以初步判断数据是否有问题,比如AQI设定的最大值为500,而且空气污染值一般不会出现0,如果数据中出现AQI超过500,或者等于0,就说明数据有问题。顺带提一句,因为AQI可能出现500“爆表”后浓度与数据不再成正比上升