基本概念
1. 直方图
按方块的面积衡量所占的比例(一般没有纵向刻度,可能会有密度尺度)
2. 平均数和中位数
中位数:直方图上左右两边面积相等
3. 均方根(Root mean square)
r.m.s = sqrt(n1^2 + n2^2 + ...)
4. 标准差
指出数列中的数离它们的平均数有多远
s.d. = sqrt((与平均数的偏差)^2的平均数)
5. 百分位数
10%分位数:数列中10%的值<=分位数值
6. 机会误差,偏性,离群点
单独测量值 = 精确值 + 偏度 + 机会误差
平均数和SD可能受到离群点的强烈影响,从而影响直方图的分布
7. 相关性
两个变量(x,y)的关系可用如下统计量概括:
a. x的平均数,x的SD
b. y的平均数,y的SD
c. 相关系数r
r=1:完全相关
r=0.3~0.7:弱相关(社会科学研究)
r<0:负相关
r=-1:完全负相关
相关性r计算公式: r= [(以标准单位表示的x) * (以标准单位表示的y)] 的和的平均数
以标准单位表示的x = (xi - avg(X)) / SD
另一种计算相关性的公式
1. 直方图
按方块的面积衡量所占的比例(一般没有纵向刻度,
2. 平均数和中位数
中位数:直方图上左右两边面积相等
3. 均方根(Root mean square)
r.m.s = sqrt(n1^2 + n2^2 + ...)
4. 标准差
指出数列中的数离它们的平均数有多远
s.d. = sqrt((与平均数的偏差)^2的平均数)
5. 百分位数
10%分位数:数列中10%的值<=分位数值
6. 机会误差,偏性,离群点
单独测量值 = 精确值 + 偏度 + 机会误差
平均数和SD可能受到离群点的强烈影响,从而影响直方图的分布
7. 相关性
两个变量(x,y)的关系可用如下统计量概括:
a. x的平均数,x的SD
b. y的平均数,y的SD
c. 相关系数r
r=1:完全相关
r=0.3~0.7:弱相关(社会科学研究)
r<0:负相关
r=-1:完全负相关
相关性r计算公式: r= [(以标准单位表示的x) * (以标准单位表示的y)] 的和的平均数
以标准单位表示的x = (xi - avg(X)) / SD
另一种计算相关性的公式