参考资料:
- 《深入浅出统计学》
- 《深入解析SAS — 数据处理、分析优化与商业应用 》
- 举例分析方差分析ANOVA
- 卡方分布参考资料
Table of Contents
2. 方差分析(Analysis of Variance,简称ANOVA)
1.线性回归
1.1 基础概念
二变量数据:对于每一个观察结果,二变量数据给出两个变量数值
常用表示图形:散点图(散布图),散点图的作用在于能体现数据的实际模式,通过散点图,你可以清晰地看出两个变量的关系
正线性相关:x增长,y也涨
负线性相关:x增长,y下降
不相关:x和y数值呈现一种随机模式
两个变量之间存在相关关系(数学关系),并不一定意味着一个变量会影响另一个变量,也不意味着二者存在实际关系
最佳拟合线:能最好的接近所有数据点的线(最佳预测)
如果确定最佳拟合线:表达式为且使得y的实际观察值与每个x相对应的y的估计值的差距最小的线
如何确定差距最小:利用误差平方和,和方差的计算方法很相近
1.2 拟合线计算步骤
- 求出
和
- 计算
中的斜率(陡度)
,即
为最佳拟合线的斜率,公式为:
- 最佳拟合线最好穿过x和y的均值(
,
),带入计算计算
。
- 得到最佳拟合线
最小二乘法
一种数学方法,可以用一条最佳拟合线将一组二变量数据拟合
通过将公式
的一条直线与一组数值相拟合,使得误差平方和最小——即使得实际数值与这些数值的估计值之间的差值最小。
其中,直线
被称为回归线
1.3 判断准确性
利用回归线的相关性强度——相关系数
相关系数介于 -1 和 1 之间,描述了各个数据点与直线的偏离程度,度量回归线与数据的拟合度,用字母 r 表示
,数据为完全负线性相关;
,完全正线性相关;
,不存在相关性
计算相关系数r
计算公式:
,
,