线性回归
平方误差
- 每个点同直线的误差,也就是它到直线的竖直距离
- 平方误差 S E l i n e = ∑ i = 1 n ( y i − ( m x i + b ) ) 2 SE_{line} = \sum_{i=1}^{n}(y_{i}-(mx_{i}+b))^{2} SEline=∑i=1n(yi−(mxi+b))2
- 可看作直线对这些点拟合程度的一种度量
公式推导
S E l i n e = ∑ i = 1 n y i 2 − 2 m x i y i − 2 b y i + m 2 x i 2 + 2 m b x i + b 2 SE_{line} = \sum_{i=1}^{n}y_{i}^{2}-2mx_{i}y_{i}-2by_{i}+m^{2}x_{i}^{2}+2mbx_{i}+b^{2} SEline=∑i=1nyi2−2mxiyi−2byi+m2xi2+2mbxi+b2
∵ ∑ y i 2 n = y 2 ‾ , ∑ x i y i n = x y ‾ , ∑ x i 2 n = x 2 ‾ , ∑ x i n = x ‾ , ∑ y i n = y ‾ \because \frac{\sum y_{i}^{2}} {n} = \overline{y^{2}},\frac{\sum x_{i}y_{i}} {n} = \overline{xy},\frac{\sum x_{i}^{2}} {n} = \overline{x^{2}},\frac{\sum x_{i}} {n} = \overline{x},\frac{\sum y_{i}} {n} = \overline{y} ∵n∑yi2=y2,n∑xiyi=xy,n∑xi2=x2,n∑xi=x,n∑yi=y
∴ S E l i n e = n y 2 ‾ − 2 m n x y ‾ + n m 2 x 2 ‾ − 2 b n y ˉ + 2 m n b x ˉ + n b 2 \therefore SE_{line} = n\overline{y^{2}}-2mn\overline{xy}+nm^{2}\overline{x^{2}}-2bn\bar{y}+2mnb\bar{x}+nb^{2} ∴SEline=ny2−2mnxy+nm2x2−2bnyˉ+2mnbxˉ+nb2
假设 x , y x,y x,y均已知,这条方程就可以看成是 m , n , S E l i n e m,n,SE_{line} m,n,SEline值构成的曲面,其中
S E l i n e SE_{line} SEline为纵轴,最小化平方误差就是找出曲面的最低点,即找出对应的 m m m和 n n n。则
问题可转化为 ∂ S E l i n e ∂ m = 0 \frac{\partial SE_{line}} {\partial m}=0 ∂m∂SEline=0且 ∂ S E l i n e ∂ b = 0 \frac{\partial SE_{line}} {\partial b}=0 ∂b∂SEline=0
∴ − 2 n x y ‾ + 2 m n x 2 ‾ + 2 b n x ˉ = 0 , − 2 n ˉ y + 2 m n x ˉ + 2 n b = 0 \therefore -2n\overline{xy}+2mn\overline{x^{2}}+2bn\bar{x}=0,-2n\bar{}y+2mn\bar{x}+2nb=0 ∴−2nxy+2mnx2+2bnxˉ=0,−2nˉy+2mnxˉ+2nb=0
∴ − x y ‾ + m x 2 ‾ + b x ˉ = 0 , − y ˉ + m x ˉ + b = 0 \therefore -\overline{xy}+m\overline{x^{2}}+b\bar{x}=0,-\bar{y}+m\bar{x}+b=0 ∴−xy+mx2+bxˉ=0,−yˉ+mxˉ+b=0
∴ m x 2 ‾ + b x ˉ = x y ‾ , m x ˉ + b = y ˉ \therefore m\overline{x^{2}}+b\bar{x}=\overline{xy},m\bar{x}+b=\bar{y} ∴mx2+bxˉ=xy,mxˉ+b=yˉ
从第二个等式可以看出点 ( x ˉ , y ˉ ) (\bar{x},\bar{y}) (xˉ,yˉ)必然存在于最优直线上
而由第一个等式可知 m x 2 ‾ x ˉ + b = x y ‾ x ˉ m\frac{\overline{x^{2}}} {\bar{x}}+b=\frac{\overline{xy}}{\bar{x}} mxˉx2+b=xˉxy,便可得到最优直线上第二个点 ( x 2 ‾ x ˉ , x y ‾ x ˉ ) (\frac{\overline{x^{2}}} {\bar{x}},\frac{\overline{xy}}{\bar{x}}) (xˉx2,xˉxy)
求解方程得: m = x ˉ y ˉ − x y ‾ ( x ˉ ) 2 x 2 ‾ , b = y ˉ − m x ˉ = x y ‾ x ˉ − x 2 ‾ y ˉ x ˉ 2 − x 2 ‾ m=\frac{\bar{x}\bar{y}-\overline{xy}}{(\bar{x})^{2}\overline{x^{2}}},b=\bar{y}-m\bar{x}=\frac{\overline{xy} \bar{x}-\overline{x^{2}}\bar{y}}{\bar{x}^{2}-\overline{x^{2}}} m=(xˉ)2x2xˉyˉ−xy,b=yˉ−mxˉ=xˉ2−x2xyxˉ−x2yˉ
决定系数
- 内涵: y y y 的波动程度有多少百分比能被 x x x 的波动程度所描述
- S E y ˉ SE_{\bar{y}} SEyˉ: y y y 的总波动,即 y y y 的方差 * n n n
- S E l i n e SE_{line} SEline:总波动中有多少百分比没有被回归线所描述
- R-Squared:即决定系数—— 1 − S E l i n e S E y ˉ 1-\frac{SE_{line}}{SE_{\bar{y}}} 1−SEyˉSEline
- 所以如果直线的平方误差很小,意味着直线拟合的很好,此时R-Squared接近1;相反如果平方误差很大,则R-Squared就会接近于0
协方差
- 定义:两随机变量离各自均值距离之积的期望值,同步程度决定协方差大小
- C o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] = E [ X Y ] − E [ X ] E [ Y ] = x y ‾ − x ˉ y ˉ Cov(X,Y)=E[(X-E[X])(Y-E[Y])]=E[XY]-E[X]E[Y]=\overline{xy}-\bar{x}\bar{y} Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−E[X]E[Y]=xy−xˉyˉ,即回归线的斜率分子。所以回归线斜率也可以写成 C o v X , Y V a r ( X ) \frac{Cov{X,Y}}{Var(X)} Var(X)CovX,Y 的形式
卡方分布
- 假设 X i X_{i} Xi~ N ( 0 , 1 ) , i = 1 , . . . , n N(0,1),i=1,...,n N(0,1),i=1,...,n,且互相独立。令变量 Q = ∑ i = 1 n X i 2 Q=\sum_{i=1}^{n}X_{i}^{2} Q=∑i=1nXi2,则 Q Q Q 服从自由度为 n n n 的卡方分布
皮尔逊卡方检验
- 注意在计算每个独立的标准正态分布时需要标准化,分母为当个数据点的容量
- 值得注意的是自由度的计算—— n 个数据点只有 n - 1 个自由度,因为根据 n - 1 个数据点可以推算出第 n 个数据的信息
列联表卡方检验
- 列联表
Contingency Table | Herb 1 | Herb 2 | Placebo | Total |
---|---|---|---|---|
sick | 20 | 30 | 30 | 80 |
Expected | 25.3 | 29.4 | 25.3 | 21% |
not sick | 100 | 110 | 90 | 300 |
Expected | 94.7 | 110.6 | 94.7 | 79% |
Total | 120 | 140 | 120 | 380 |
- 自由度:(行数 - 1) * (列数 - 1)
方差分析
- 定义:分析数据总波动有多少是由于组内波动造成,有多少是由于组外波动造成
- SST:方差的分子部分,自由度为 m*n-1
- SSW:组内平方和,即不同分组内数据对组均值差的平方和之和,自由度为 m*(n - 1),因为知道各组内 n - 1 个数据就可以求出第 n 个数据的值
- SSB:组间平方和,内涵为总波动有多少是因为组均值之间的波动,即不同分组均值对总均值差的平方和,自由度为 m - 1,因为知道 m - 1 个组的均值就可以求出第 m 个组的均值
- 从上述可以发现SST的自由度恰好等于SSB与SSW自由度之和,可以说明数据的总波动可以分解为两个分量的波动之和,一个是组内,一个是组间
F统计量假设检验
- F统计量: S S B m − 1 \frac{SSB}{m-1} m−1SSB/ S S W m ( n − 1 ) \frac{SSW}{m(n-1)} m(n−1)SSW,如果分子比分母大很多,则说明波动大多数来自于各组之间
因果性和相关性
- 存在因果关系则一定相关,但存在相关关系并不一定因果
演绎推理
- 归纳推理:用已有信息进行趋势外推,趋势不一定继续;例如根据历史数据推测人口模式
- 演绎推理:从事实出发演绎得到另一个事实,但知道事实肯定正确;例如解方程