第3章 Stata描述统计

最新推荐文章于 2024-10-16 13:46:01 发布

查尔斯-狩乃

最新推荐文章于 2024-10-16 13:46:01 发布

阅读量3.2w

点赞数 39

分类专栏： Stata数据分析文章标签：数据分析大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45112156/article/details/118334864

版权

本文介绍了如何使用Stata进行定距变量的描述性统计，包括平均值、标准差、百分位数等，并探讨了正态性检验、数据转换，以及单个分类变量和多个分类变量的汇总分析，旨在帮助数据分析者更好地理解和处理数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

3.1定距变量的描述性统计

1.获得更详细的描述性统计结果

2.根据自己的需要或去相应的概要统计指标

3.按另一变量分类列出某变量的概要统计指标

4.创建变量总体均值的置信区间

3.2正态性检验和数据转换

1.有针对性地对数据进行变换

2.关于ladder命令介绍

3.3单个分类变量的汇总

3.4两个分类变量的列联列表分析

3.5多表和多维列联分析

在进行数据分析时，当研究者得到的数据量很小时，可以通过直接观察原始数据来获得所有的信息。但是当得到的数据量很大时，就必须借助各种描述指标来完成对数据的描述工作。用少量的描述指标来概括大量的原始数据，对数据展开进行描述的统计分析方法被称为描述性统计分析。本章将会为大家介绍的描述性统计分析方法包括定距变量的描述性统计、正态性检验和数据转换、单个分类变量的汇总、两个分两类变量的列联列表分析、多表和多维列连列表分析。

3.1定距变量的描述性统计

数据分析中大部分变量都是定距变量，通过进行定距变量的基本描述性统计，我们可以得到数据得概要统计指标，包括平均值、最大值、最小值、标准差、百分位数、中位数、偏度系数和峰度系数等。数据分析者通过或者这些指标，可以从整体上对拟分析的数据进行宏观的把握，从而为后续进行更深入的数据分析做好必要的准备。

数据（案例3.1）时我国电力消费情况。试通过对数据进行基本描述性分析来了解我国各地区电力消费的基本情况。变量为地区和电力消费量

summarize cunsumption

我们可以看到一共有31个样本参与了分析，电力消费量的平均值时1180.489，样本的标准差时903.5561，样本最小值时17.6987，样本最大值时3609.642。

案例延伸

1.获得更详细的描述性统计结果

sum cunsumption,detail

从上图我们可以得到更加详细的信息。

（1）百分位数（Percentiles）

可以看出数据的第一个四分位数（25%）时550.1556，数据的第二个四分位数（50%）是891.1902，数据的第三个四分位数（75%）是1324.61，数据的百分位数的含义是低于该数据值得样本在全体样本中得百分比。例如，本例中25%分位数得含义是全体样本中有25%得数据值低于550.1556。

（2）四个最小值（Smallest）

本例中，最小的四个数据分别是17.6987、133.7675、337.2368、462.9585。

（3）四个最大值（Largest）

本例中，最大的四个数据分别是3609.642、3313.986、2941.067、2471.438。

（4）平均值（Mean）和标准差（Std.Dev）

（5）偏度（Skewness）和峰度（Kurtosis）

偏度的概念是表示不对称的方向和程度。如果偏度值大于0，那么数据就具有正片都（右边有尾巴）；如果偏度值小于0，那么数据就具有负偏度（左边有尾巴）；如果偏度值等于0那么数据将呈对称分布。本例中，数据偏度为1.309032，为正偏度但不大。</

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。