stata进行数据分组转换操作及分组统计

在科学研究中免不了和数据打交道,收集到原始数据往往不能直接使用,我们经常需要对其进行清洗、转换才能得到我们需要的数据。既往我们已经介绍了通过R进行数据转换,今天来介绍一下通过stata进行数据分组转换操作及分组统计。

在这里插入图片描述

继续使用我们的汽车销售数据来演示,先导入数据,我是直接粘贴
在这里插入图片描述
我们来看下数据,car就是汽车售价,age是年龄,gender是性别,inccat是收入,这里分成4个等级,ed是教育程度。
下面开始我们的转换:

  1. 假设我们想把年龄age分成5个组别,然后求出每个组别买车年龄的平均值
    先把年龄分组,生成5个年龄组
cluster kmeans age ,gen(group) k(5)

在这里插入图片描述
求每个组的购车平均售价

egen meancar=mean(car),by(group)

在这里插入图片描述
这样每个年龄组购车的平均售价就出来了,同理还可以求中位数,标准差等等很多内容,缺点是by参数只能分组一个变量,分组两个变量就会报错,不能计算标准误,需要手动计算。
2. 假设我们想知道不同教育阶段购车年龄、价格的关系
如果不使用stat函数控制输出,默认的是输出平均值

tabstat car age , by( ed )

在这里插入图片描述
如果我们想多输出点内容,结果包含平均值和标准差、标准误,semean就是标准误的意思,等于standard error of mean (sd/sqrt(n))

tabstat car age , by( ed ) stat(mean sd semean)

在这里插入图片描述
Tabstat函数和egen函数的缺点都是只能分组一个变量,不能分组两个变量。
3. 假设我们想知道不同教育水平中,不同性别的人群购车关系
假设想知道不同教育水平中不同性别人群购车的平均价

collapse (mean) car= car ,by( ed gender )

在这里插入图片描述
我们还可以在这个基础上加入年龄

collapse (mean) car= car age=age,by( ed gender )

在这里插入图片描述
Collapse函数一次可以分组两个变量,但是不能出两个结果,如果你还想知道标准误的结果,只能再做一次,然后合并,这一点就比不上R了。不过也就是多做一次,也不麻烦。

collapse (semean ) se= car ,by( ed gender )

在这里插入图片描述
合并数据,其实很简单直接粘贴在Excel合并就好了。
在这里插入图片描述
OK,这样我们的数据转换就完成了,和我们用R语言做出来的一模一样哦,本章完结,如果觉得有用,记得分享给需要的人哦。

Stata中,可以使用`by`命令对数据进行分组,并使用`summarize`命令计算每个分组的描述性统计量。下面是一个示例代码: ``` sysuse auto, clear by foreign: summarize mpg weight length rep78 ``` 这个代码将根据`foreign`变量对数据进行分组,并计算每个分组的`mpg`、`weight`、`length`和`rep78`的描述性统计量。你可以根据需要修改变量和分组条件。 引用\[1\]提供了一个将描述性统计量输出到Word文档的方法,你可以参考该引用中的代码来实现。需要注意的是,你需要先安装`sum2docx`命令,该命令可以通过在Stata中运行`ssc install sum2docx`来安装。 引用\[2\]提供了关于`stats()`选项的详细说明,你可以根据需要设置输出的统计量和格式。 引用\[3\]提供了关于描述性统计分析的基本原理和应用的介绍,你可以参考该引用来理解描述性统计的概念和计算方法。 #### 引用[.reference_title] - *1* *2* [命令更新之sum2docx:将描述性统计输出至Word文档 ——转自李春涛老师团队 爬虫俱乐部 微信公众号](https://blog.csdn.net/yexiaobu/article/details/108875939)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [stata统计分析及行业应用案例分析_描述性统计分析的应用——基于描述性统计分析识别优质股票...](https://blog.csdn.net/weixin_39796140/article/details/110255562)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天桥下的卖艺者

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值