个案: 每一个个体|记录
变量: 属性
误差:随机误差(找不到原因) 系统误差(有规律)
信度: 同样方法重复测量同一对象结果一致性
效度: 与真实结果的相似性。
不同点
-
研究对象不同
信度:答卷者 效度:组卷人 -
研究角度不同
信度:测量的质量效度:问卷的质量
-
数值大小不同
- 问卷效度<问卷信度
- 效度的最大值≤信度的平方根
- 效度高,信度一定高;信度高,效度不一定高
正态分布
- M± 1SD: 68%
- M± 1.96SD: 95%
- M± 2.58SD: 99%
偏度: 数据的倾斜(下图为右偏)
峰度: 有多高
自由度: 可以自由变化的未知数,X+Y+Z=0,自由度为2,两个数确定下来,第三个未知数自动确定
对于样本量为N的数据,它的自由度天然就是N-1个。因为它存在一个均值,这就是限制它的条件。
自由度=变量个数(样本量)N-限制条件
假设检验
判断标准: 显著性水平( significance level)-α一常用标准5%、1%和0.1%
p值(p- value): 即虚无假设事实上成立,但我们计算出的结果却错误判断虚无假设不成立的概率
用p值与α进行比校,以此判断结果。
深入理解p值
这个东西困扰我好久了,我只会比较但不理解含义。
p值代表真实样本数据中小概率事件发生的偶然性,当偶然性不大的时候就可以认为原假设错误,比如猪肉场宣称自己的猪肉都是5kg,你买了100块猪肉发现均值不是5kg,而是4kg,原假设就是猪肉是5kg,备则假设是猪肉不是5kg。p值就是猪肉不是5kg出现的偶然性。现在你固定显著性水平
α
\alpha
α是5%,即只要偶然性低于5%,就可以拒绝原假设,因为偶然性越低代表猪肉不是5kg的普遍性越高。下面置信区间是什么意思呢,还是猪肉,如果你买的100块猪肉的平均值是4kg,标准误差是1kg,那么你置信区间是(4±1)*95%概率的分位数。还是猪肉,如果你买的100块猪肉的平均值是4kg,标准误差是1kg,那么你置信区间是(4±1)*95%概率的分位数。