十四、使用相关系数检验关系
检验变量之间的关系而不是群体之间的差异; 只检验两个变量之间的关系;所要应用的合适的检验统计是相关系数的t检验。实例:婚姻质量和父母-子女关系水平--之间关系的检验。零假设,没有关系;研究假设,存在关系。显著水平设置为.05。
import scipy.stats as stats
#婚姻质量
x=[76,81,78,76,76,78,76,78,98,88,76,66,44,67,65,59,87,77,79,85,68,76,77,98,99,98,87,67,78]
#父母-子女关系 水平
y=[43,33,23,34,31,51,56,43,44,45,32,33,28,39,31,38,21,27,43,46,41,41,48,56,55,45,68,54,33]
r, p=stats.pearsonr(x,y)
print r
print p
输出
0.393418620974
0.0347359313295
计算得到 r=0.393 p=0.034,说明两个变量之间的关系是由于随机因素引起的可能性小于5%,因此认为两个变量之间的关系是显著的。
十五、使用线性回归
估计是以过去的结果估计未来结果的活动,比如用高中的平均成绩估计大学的平均成绩。要进行这样的估计就必须建立回归等式(regression equation),并建立回归线(regression line)。立回归线也称作最优拟合线(line of best fit)。用x表示高中平均成绩,用y表示大学成绩,这就是变量y对变量x的回归,即y依据x被估计。每一个具体的数据点和回归线的距离就是估计误差(error in prediction)。给定了回归线,就