数据挖掘--统计学模块 01 数据的描述性统计

最新推荐文章于 2022-11-07 14:52:03 发布

夜跑

最新推荐文章于 2022-11-07 14:52:03 发布

阅读量1k

点赞数 2

分类专栏：数据分析\挖掘--统计学文章标签：数据挖掘统计学

本文链接：https://blog.csdn.net/YEPAO01/article/details/95978938

版权

本文介绍了数据挖掘中统计学模块的第一周学习内容，主要聚焦于描述性统计，包括集中趋势（众数、中位数、算术平均数、加权平均数、几何平均数）、离散程度（方差、标准差、极差、平均差、四分位差、异众比率、离散系数）以及分布的形状（偏态系数、峰态系数）。通过学习，旨在掌握如何用统计量描述数据的特性，并了解在不同场景中选择合适的统计方法。

摘要由CSDN通过智能技术生成

01 数据的描述性统计

数据挖掘--统计学模块

数据挖掘–统计学模块

转行路负重前行.

第一周学习计划

第一周学习计划
图片来自木东居士的数据挖掘学习小组.

学习目标

统计学中的统计分析主要包括两类：描述性统计分析, 推断性统计分析.
咱们这次学习的描述性统计分析是通过制表画图及计算统计量等方式, 对采集的数据进行概括\描述\探索. 最终目的是用简洁有效的方式去描述复杂繁琐的数据, 用几个统计值表示一组数据的集中趋势\离散程度\分布形状. 在不同场景中, 利用这些数据了解数据的特征, 做后期的数据分析.

1 能够利用python计算一组数据的的统计值
2 了解统计值在不同场景中的数据概念\实际意义

主要内容

00 楔子

数据类型: 分类变量和数值变量

分类变量: 定类定序
数值变量: 连续离散
在分析分类变量时, 我们通常只看一组数据属于一个分类的类别.
描述数值变量的四个方面(集中趋势\离散程度\分布形状\异常值)不用于描述分类变量.

01 集中趋势

众数(mode):
001 定义: 一组数据分布的峰值(是一组数据中出现次数最多的数值, 有时众数在一组数中有好几个), 不受极端值影响; 当数据较多时, 众数才有意义; 应用于分类数据\顺序数据\数值型数据.
002 适用场景: 当数值或被观察者没有明显次序（常发生于非数值性资料）时特别有用, 由于可能无法良好定义算术平均数和中位数.
003 代码:

df = pd.DataFrame(np.vstack([ np.ones((5,3)), np.zeros((4,3))]),columns=list("abc"))
print(df.mode())

中位数(median):
001 定义: 把数据分成50%和50%的数值, 不受极端值的影响.
002 适用场景:当一组数据中的个别数据变动较大时, 常用它来描述这组数据的集中趋势.
003 代码:

df = pd.DataFrame(np.random.randn(10,3),columns=list("abc"))
print(df.median())

算数平均数(mean):
001 定义: 算术平均数是加权平均数的一种特殊形式, 算术平均数易受极端值的影响.
在这里插入图片描述
002 适用场景:数据在各项的权重相等.
003 代码:

df = pd.DataFrame(np.random.randint(0,10,20).reshape(10,2),columns=list("ab"))
print(df,"\n-------------")
print(df.mean())

加权平均数
001 定义: 是指各数值*权重的总体加和 / 总数N
在这里插入图片描述
002 适用场景:某一指标的权重是指该指标在整体评价中的相对重要程度, 没有重要性的指标分析是不完善的.
003 代码:这里只写了简单的单列的加权平均, 我太菜… DataFrame多列的加权计算还不会, 我继续探索

df = pd.DataFrame(np.random.randint(0,6,40).reshape(10,4),columns

最低0.47元/天解锁文章

夜跑

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录