统计学与概率论间的关系
概率论研究的是一个白箱子,你知道这个箱子的构造(里面有几个红球、几个白球,也就是所谓的分布函数),然后计算下一个摸出来的球是红球的概率。而统计学面对的是一个黑箱子,你只看得到每次摸出来的是红球还是白球,然后需要猜测这个黑箱子的内部结构,例如红球和白球的比例是多少?(参数估计)能不能认为红球40%,白球60%?(假设检验)
标准差
除法的双重含义
相同单位的比例是包含除,不同单位的比例是等分除
频数分布表
组:将数据以相同间隔分开的区间。·
组中值:各组上下限中间的数值。·常以组中值代以落入改组中的数据。
频数:各组中包含数值的数量。·
相对频数:各组数据频数在总频数中的占比。·
累计相对频数:逐级相对频数相加的和。
分组取组段值时,可以参照JIS标准:
矩形图是将频数分布表的组用横轴表示、将频数用纵轴表示绘制出的柱状图。
累计频数分布图:
代表值
可以有平均数及中位数等:
四分位数
B组,前版数据的中位数是35,后半数据的中位数是70.由四分位划分的区间,是人数均等,箱体长度,表示为相同人数其分数分步的离散程度。如图,35至40分间分布的人数均等,但是密度最大。
变量与数据
数值组成的整体被称为“数据”,而测量对象对应的单个条目(例题中为考试分数)被称为“变量”。
关于置信区间
理解的关键是我们是对这个构造置信区间的方法做概率描述,而非真值,也非我们算得的这个区间本身。
每个样本能生成一个置信区间。但是置信区间有一定随机性。
20个样本,有19个样本包含样本均值(某种整体参数),有一个区间未包含样本总体均值,则对于任一样本,其包含样本总体参数的概率是95%。