第3章 Stata描述统计

本文介绍了如何使用Stata进行定距变量的描述性统计,包括平均值、标准差、百分位数等,并探讨了正态性检验、数据转换,以及单个分类变量和多个分类变量的汇总分析,旨在帮助数据分析者更好地理解和处理数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

       

目录

3.1定距变量的描述性统计

案例延伸

1.获得更详细的描述性统计结果

2.根据自己的需要或去相应的概要统计指标

3.按另一变量分类列出某变量的概要统计指标

4.创建变量总体均值的置信区间

3.2正态性检验和数据转换

案例延伸

1.有针对性地对数据进行变换

2.关于ladder命令介绍

3.3单个分类变量的汇总

案例延伸

3.4两个分类变量的列联列表分析

案例延伸

3.5多表和多维列联分析

案例延伸


        在进行数据分析时,当研究者得到的数据量很小时,可以通过直接观察原始数据来获得所有的信息。但是当得到的数据量很大时,就必须借助各种描述指标来完成对数据的描述工作。用少量的描述指标来概括大量的原始数据,对数据展开进行描述的统计分析方法被称为描述性统计分析。本章将会为大家介绍的描述性统计分析方法包括定距变量的描述性统计、正态性检验和数据转换、单个分类变量的汇总、两个分两类变量的列联列表分析、多表和多维列连列表分析。

3.1定距变量的描述性统计

        数据分析中大部分变量都是定距变量,通过进行定距变量的基本描述性统计,我们可以得到数据得概要统计指标,包括平均值、最大值、最小值、标准差、百分位数、中位数、偏度系数和峰度系数等。数据分析者通过或者这些指标,可以从整体上对拟分析的数据进行宏观的把握,从而为后续进行更深入的数据分析做好必要的准备。

        数据(案例3.1)时我国电力消费情况。试通过对数据进行基本描述性分析来了解我国各地区电力消费的基本情况。变量为地区和电力消费量

summarize cunsumption

        我们可以看到一共有31个样本参与了分析,电力消费量的平均值时1180.489,样本的标准差时903.5561,样本最小值时17.6987,样本最大值时3609.642。

案例延伸

1.获得更详细的描述性统计结果

sum cunsumption,detail

        从上图我们可以得到更加详细的信息。

        (1)百分位数(Percentiles)

        可以看出数据的第一个四分位数(25%)时550.1556,数据的第二个四分位数(50%)是891.1902,数据的第三个四分位数(75%)是1324.61,数据的百分位数的含义是低于该数据值得样本在全体样本中得百分比。例如,本例中25%分位数得含义是全体样本中有25%得数据值低于550.1556。

        (2)四个最小值(Smallest)

        本例中,最小的四个数据分别是17.6987、133.7675、337.2368、462.9585。

        (3)四个最大值(Largest)

        本例中,最大的四个数据分别是3609.642、3313.986、2941.067、2471.438。

        (4)平均值(Mean)和标准差(Std.Dev)

        (5)偏度(Skewness)和峰度(Kurtosis)

        偏度的概念是表示不对称的方向和程度。如果偏度值大于0,那么数据就具有正片都(右边有尾巴);如果偏度值小于0,那么数据就具有负偏度(左边有尾巴);如果偏度值等于0那么数据将呈对称分布。本例中,数据偏度为1.309032,为正偏度但不大。</

### 如何在Stata中导出描述性统计结果 为了实现在Stata中导出描述性统计数据,可以利用`estpost`命令配合其他辅助命令完成这一操作。具体来说,在执行描述性统计分析之后,通过`esttab`或`outreg2`等工具可将这些数据保存至外部文件。 #### 使用 `estpost sum` 和 `esttab` 首先加载所需的数据集并计算基本的描述性统计量: ```stata sysuse auto, clear estpost summarize mpg weight length turn, detail ``` 接着定义要输出的内容格式,并指定目标文件路径: ```stata esttab using "descriptive_statistics.csv", cells("mean sd min max") /// noobs nonumbers replace ``` 上述代码会创建一个CSV文件,其中包含了变量均值、标准差以及极值的信息[^1]。 如果希望获得更详细的定制化报告,则可以通过调整参数来满足特定需求;比如加入百分位数或其他度量指标。 对于那些偏好Excel表格形式的用户而言,也可以直接生成`.xls`类型的文档: ```stata ssc install estout // 安装插件(仅需首次运行) esttab using "descriptive_statistics.xls", cells("mean(fmt(2)) sd p50") se wide replace ``` 这里使用了来自社区贡献包中的功能扩展[^2],使得整个过程更加简便高效。 另外一种常见的做法是借助第三方开发维护的小型应用程序集合——例如由Ben Jann编写的`asdocx`,它能够快速地把各种类型的回归模型估计结果连同摘要统计表一同转换成Word或Excel格式的精美报表。 最后值得注意的是输入给函数的数据结构应当适配相应的要求,通常接受NumPy数组、字典或是Pandas DataFrame等形式作为源材料[^3]。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值