来源:http://study.163.com/course/courseMain.htm?courseId=1005232026
索引——
- 基本概念
- 连续变量的统计描述
- 分类变量的统计描述
- 正太分布
- 二项分布
- 参数估计与可信区间
- 假设检验
二、连续变量的统计描述
1、统计方法
1.1 频数表
组数:不宜过多或过少,保证大多数组都有个观察值
组距:确定全距猴,进行等距分组,组距(约等于)极差/组数
上下限:各组的起点称为该组下限,终点称为上限
1.2 直方图/频数图
从频数图/表中可获得的信息:
(1)集中趋势:高峰组段在什么位置出现
(2)离散趋势:数据分布范围、分散程度如何
(3)分布形状:是否对称,分布曲线的形状;正、负偏(尾巴在那边就偏哪边,推荐说法)和左、右偏
(4)分布特征:如一个高峰还是两个高峰,有无偏移得较远的值
2、集中趋势(central tendency)描述指标
2.1 均数(mean):即算数平均数,描述一组数据在数量上的平均水平;
总体均数和样本均数用不同符号表示:μ和
均数的书写都应该带有测量单位,如:身高1.7米;
均数的实质:把各个原始值抽象画,集中在一个平均水平上。
均数的优点:(1)高度浓缩,一个数值代表整个个体的水平;(2)便于比较、传播
均数缺点:(1)大锅饭:掩盖了数据间的