stata统计分析及行业应用案例分析_数据分析之路——描述性统计分析和应用案例...

本文介绍了Stata中的描述性统计分析,包括平均值、四分位数、标准差和标准分等关键指标,强调了它们在数据集中描述集中趋势和波动性的作用。同时,文章探讨了异常值的识别方法,如四分位距和箱线图,并提供了异常值的处理策略。此外,还分享了实际应用案例,展示统计分析在行业中的实践应用。
摘要由CSDN通过智能技术生成

1.描述统计分析

将一系列复杂的数据减少为几个能够起到描述作用的数字,用这些代表性的数字来代表数据集,进而知道数据的整体情况。

常用的4个指标:①平均值;②四分位数;③标准差;④标准分

平均值

表示一组数据集中趋势的指标,指在一组数据中所有数据之和再除以这组数据的个数。

缺点:平均值对异常数值不敏感,当数据中有异常值时,用平均值来描述数据整体情况是不准确的。

四分位数

中位数:将数据集有n个数值,按从小到大进行排序,如果n是奇数,中位数是位于中间数值;如果n是偶数,中位数就是中间两个数的平均值。

四分位数:下四分位数的位置= (n+1) ×

中位数的位置= (n+1) ×

上四分位数的位置= (n+1) ×

用箱线图来理解四分位数:

四分位数的应用:比较数据;识别异常值。

异常值:

识别异常值方法:

四份位距:IQR = Q3 − Q1

最小估计值:Q1-k(Q3-Q1)

最大估计值:Q3-k(Q3-Q1)

K=中度异常,k=3极度异常

异常值:< Q1-k(Q3-Q1)或> Q3-k(Q3-Q1),在最小估计值和最

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值