统计学基础--数据基础

本文探讨了统计学与概率论之间的关系,通过实例解析标准差的双重含义,介绍频数分布表、代表值(如平均数和中位数)、四分位数的概念,以及如何利用置信区间理解数据的不确定性。涵盖了统计推断、数据可视化和基本的分析方法。
摘要由CSDN通过智能技术生成


统计学与概率论间的关系

概率论研究的是一个白箱子,你知道这个箱子的构造(里面有几个红球、几个白球,也就是所谓的分布函数),然后计算下一个摸出来的球是红球的概率。而统计学面对的是一个黑箱子,你只看得到每次摸出来的是红球还是白球,然后需要猜测这个黑箱子的内部结构,例如红球和白球的比例是多少?(参数估计)能不能认为红球40%,白球60%?(假设检验)

标准差

在这里插入图片描述

除法的双重含义

在这里插入图片描述
相同单位的比例是包含除,不同单位的比例是等分除

频数分布表

组:将数据以相同间隔分开的区间。·
组中值:各组上下限中间的数值。·常以组中值代以落入改组中的数据。
频数:各组中包含数值的数量。·
相对频数:各组数据频数在总频数中的占比。·
累计相对频数:逐级相对频数相加的和。
分组取组段值时,可以参照JIS标准:
在这里插入图片描述
矩形图是将频数分布表的组用横轴表示、将频数用纵轴表示绘制出的柱状图。
累计频数分布图:
在这里插入图片描述

代表值

可以有平均数及中位数等:
在这里插入图片描述

四分位数

在这里插入图片描述
在这里插入图片描述
B组,前版数据的中位数是35,后半数据的中位数是70.由四分位划分的区间,是人数均等,箱体长度,表示为相同人数其分数分步的离散程度。如图,35至40分间分布的人数均等,但是密度最大。

变量与数据

数值组成的整体被称为“数据”,而测量对象对应的单个条目(例题中为考试分数)被称为“变量”。

关于置信区间

理解的关键是我们是对这个构造置信区间的方法做概率描述,而非真值,也非我们算得的这个区间本身。
在这里插入图片描述
每个样本能生成一个置信区间。但是置信区间有一定随机性。
20个样本,有19个样本包含样本均值(某种整体参数),有一个区间未包含样本总体均值,则对于任一样本,其包含样本总体参数的概率是95%。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

颢师傅

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值