CDA打卡活动-统计学极简入门1-4.2

阳光下的暖冬LEO

已于 2024-04-07 13:05:43 修改

阅读量302

点赞数 3

文章标签： python

于 2024-04-02 21:18:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44314111/article/details/137290867

版权

课时2. 描述性统计

描述一组数据时，通常从三个方面进行描述：集中趋势、离散趋势、分布形状

1. 集中趋势：平均数、中位数、众数

2. 离散趋势：分位数、方差、标准差、变异系数

3. 分布形状：偏度、峰度

平均数

（1）算术平均数：适合数值型数据

=average()——Excel

np.mean()

（2）几何平均数：常用于求几个连续时期平均变化率，适合比例型数据

=geomean() ——Excel

from scipy import stats as sts

sts.gmean(data)

（3）调和平均数：n个数的倒数的算术平均数的倒数，即“双倒数”，用于求平均速度

=harmean()——Excel

from scipy import stats as sts

sts.hmean(data)

三者的大小排序：算术平均值>=集合平均值>=调和平均值

中位数：

=median()

np.median()

众数：

=mode()

from scipy import stats as sts

sts.mode(data)

分位数：

在Excel中，=quartile(A1:A8,1)，括号里的参数，0代表最小值，1代表25%分位数，2代表50%分位数，3代表75%分位数，4代表最大值。

from scipy import stats as sts

sts.scoreatpercentile(data,25) # 25分位数

sts.scoreatpercentile(data,75) # 75分位数

使用四分位数可以绘制箱线图

import seaborn as sns

sns.boxplot(data=data)

箱线图可以很直观地看到数据的最大值、最小值，以及大部分数据集中在什么区间

（1）极差又称范围误差或全距，是指一组数据中最大值与最小值的差。

Python求极差：np.ptp(data)

（2）四分位距：上四分位数与下四分位数之差，一般由IQR表示

Excel求四分位距=quartile(A1:A8,3)-quartile(A1:A8,1)

Python求四分位距：

from scipy import stats as sts

print( sts.scoreatpercentile(data,75) - sts.scoreatpercentile(data,25) )

（3）方差：=var()

from scipy import stats as sts

sts.tvar(data, ddof=1)) # ddof=1时，分母为n-1；ddof=0时，分母为n

（4）标准差：=stdev()

from scipy import stats as sts

sts.tstd(data, ddof=1)) # ddof=1时，分母为n-1；ddof=0时，分母为n

（5）变异系数/离散系数：标准差与算术平均数的比率，=stdev/average

（1）偏度：SK，衡量分布的偏斜程度

=SKEW()

from scipy import stats as sts

sts.skew(data, bias=False) #bias=False代表计算的是总体偏度，bias=True代表计算的是样本偏度

（2）峰度：K，描述分布在集中趋势高峰的状态，通常与标准正态分布相比较。

K>0，尖峰分布；K<0，平峰分布。

=KURT()

from scipy import stats as sts

sts.skew(data, bias=False) #bias=False代表计算的是总体偏度，bias=True代表计算的是样本偏度

阳光下的暖冬LEO

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
CDA打卡活动-统计学极简入门1-4.2

在Excel中，=quartile(A1:A8,1)，括号里的参数，0代表最小值，1代表25%分位数，2代表50%分位数，3代表75%分位数，4代表最大值。sts.skew(data, bias=False) #bias=False代表计算的是总体偏度，bias=True代表计算的是样本偏度。sts.skew(data, bias=False) #bias=False代表计算的是总体偏度，bias=True代表计算的是样本偏度。（2）峰度：K，描述分布在集中趋势高峰的状态，通常与标准正态分布相比较。
复制链接

扫一扫

阳光下的暖冬LEO CSDN认证博客专家 CSDN认证企业博客

码龄6年

11: 原创

141万+: 周排名

12万+: 总排名

5222: 访问

: 等级

211: 积分

70: 粉丝

97: 获赞

5: 评论

79: 收藏

私信

关注

热门文章

最新评论

CDA打卡活动-Python特征工程入门2-4.2
CSDN-Ada助手: 恭喜你写了第四篇博客！看来你对Python特征工程已经有了一定的了解了。接下来，我建议你可以深入研究一些高级的特征工程技术，比如特征选择、特征缩放等，这样可以帮助你更好地理解和应用Python特征工程。期待你的下一篇作品！加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
CDA打卡活动-Python特征工程入门3-4.2
CSDN-Ada助手: 恭喜您第5篇博客的成功发布！看到您在Python特征工程入门系列中的持续创作，我感到非常欣慰。在下一步的创作中，或许可以考虑深入探讨一些实际案例，结合实际应用场景进行分析，让读者更容易理解和接受。希望您可以继续保持创作的热情，不断提升自己的写作水平，期待您更多精彩的文章！祝您越来越好！
CDA打卡活动-统计学极简入门1-4.2
CSDN-Ada助手: 恭喜您在CDA打卡活动中发布了第6篇博客！标题为“统计学极简入门1-4.2”的内容看起来非常有趣和有价值。希望您能继续保持创作的热情和努力，为读者带来更多优质的内容。或许在下一篇博客中，可以深入探讨统计学的实际应用场景，让读者更加直观地理解统计学的重要性。期待您的下一篇作品！
CDA打卡活动-Python数据分析极简入门1-4.2
CSDN-Ada助手: 恭喜您在CDA打卡活动中发布了第7篇博客！看到您分享的Python数据分析入门内容，让我受益良多。希望您能继续保持创作的热情和努力，不断提升自己的写作水平。下一步，我建议您可以探索更多数据分析的技术细节，深入挖掘实践经验，让读者能够更全面地了解这个领域。期待您的更多精彩内容！
CDA打卡活动-Python数据分析极简入门2-4.2
CSDN-Ada助手: 恭喜您写了第8篇博客！看到您在CDA打卡活动中分享的Python数据分析入门系列，我不禁感到非常欣慰。希望您能继续坚持创作，让更多人受益。下一步，或许可以考虑深入一些高级数据分析技术，或者分享一些实战经验，让读者更加深入地了解Python数据分析的应用。期待您的精彩继续！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。