统计学一 数据的概括性度量

本文介绍了数据分析的目的,强调分析历史数据以预测未来的重要性。文章详细阐述了统计学的基本概念,包括测量尺度、集中趋势度量、离散程度的度量以及相对位置的度量,如平均数、中位数、标准差和离散系数。此外,还讨论了数据的分类、顺序、连续性以及不同数据类型适用的统计方法。通过对数据的深入理解和应用,可以更好地进行预测和决策。
摘要由CSDN通过智能技术生成

数据分析的目的:分析过去&预测未来

数据分析统计方法:

  • 描述性统计 → 数据
  • 推断性统计 → 数据检验

人工智能三大领域:统计学、机器学习、深度学习。

    **统计学:抽样(抽样方法) →[推断(统计方法)→ 误差]→ 总体

一、测量尺度

分类:定类&定序 → 频次统计;

连续:定距&定比 → 频次统计、均值、标准差;

  • 定类 → 分类 → 性别
  • 定序 → 分类+排序 → 年级
  • 定距 → 分类+排序+加减 → 温度(没有绝对0点:0不代表没有温度)
  • 定比 → 分类+排序+加减+乘除 → 体重(有绝对0点:0代表没有)

二、集中趋势的度量

1、平均数

1.1、算数平均数

总体平均数是个定值(定值:希腊字母表示),样本平均数是变量(变量:英文表示)。

1.2、加权平均数

加权平均数适用于分组数据,知道分组范围及频数求平均值。

1.3、几何平均数

用于计算平均增长率,是一个更加稳定的数据;

对原数据取自然对数,再相减,就是增长率;

1.4、调和平均&调整平均

调和平均:数据中数值集中在极小值附近,相对其他均值较小;

调整平均:将上限&下限(可能异常值)去掉一定比例(通常5%)数据,求算数平均;

2、众数、中位数

当数据差异较大时,平均数代表性较弱,用中位数表示数据集中趋势;

平均数易受极端值的影响,众数、中位数不受极端值的影响。

三、离散程度的度量

离散趋势代表了数据包含的信息量,及密集程度。

1、分类数据

异中比例:非众数组的频数占总频数的比例,用于衡量众数的代表性;

2、顺序数据

四分位差:组做排序,组号相减(表示50%的数据分布在中位数附近的几组数据中,用于衡量中位数的代表性)

3、数值型数据

EXCEL中方差、标准差计算公式:方差:var.p(总体)/var.s(样本);   标准差:stdev.p(总体)/stdev.s(样本)

3.1、总体:方差与标准差

3.2、样本:方差及标准差

 四、相对位置的度量:标准分数

也称标准化值:均值为0,标准差为1。

# 0-1标准化一般用来去量纲。

1、经验法则:

当一组数据对称分布时:

  • 约有68%的数据在平均数加减1个标准差范围内
  • 约有95%的数据在平均数加减2个标准差范围内
  • 约有99%的数据在平均数加减3个标准差范围内

2、切比雪夫不等式:

任意分布形态的数据,至少有1-1/k^{2}的数据分布在平均数加减k个标准差之内。

  • 至少75%数据落在平均数加减2个标准差范围之内
  • 至少89%数据落在平均数加减3个标准差范围之内
  • 至少94%数据落在平均数加减4个标准差范围之内

五、相对离散程度:离散系数

用于不同组别数据,离散程度的比较。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值