回归模型学习——理解&自言自语

文章探讨了回归模型在混乱数据中寻找稳定模式的概念,解释了二次型矩阵的秩与自由度的关系,以及SST(总平方和)如何分解为SSR(回归平方和)和SSE(剩余平方和)。还讨论了R-Square作为模型拟合优度的指标,以及在OLS(最小二乘法)条件下SST=SSR+SSE的成立条件。
摘要由CSDN通过智能技术生成

PRELUDE

Regression, a model of learning and finding out some relatively fixed and regular patterns among the chaos. The world of mess and random is somewhat, actually not so eluive as it may seem. There are indeed some underlying but arcane laws or principles or, maybe certain unprovable axioms. If meticulous and scrupulous enough, one would ultimately find the predictability out of the unpredictability.

UNDERSTANDING OF CONCEPTS

Degree of Freedom

二次型矩阵的秩。即为可以自由取值的变量个数。因为n个变量中,又r个线性无关,也就是各自的变动不会影响彼此的值。是最free的。

比如:f=(x_1+x_2)^2+(x_3+x_4)^2 看似有4个变量,但是其实r=2, 也就是可以化简成f=z_1^2+z_2^2, 就只有两个可以自由取值的。其实就是对角阵 \begin{pmatrix} 1 &1 &0 &0 \\ 1&1 &0 &0 \\ 0& 0 &1 &1\\ 0& 0&1 &1 \end{pmatrix} 化成   \begin{pmatrix} 1 & 0 &0&0\\ 0 & 1 &0 &0 \\ 0&0&0&0\\0&0&0&0 \end{pmatrix}  

SST的分解

Total sum of squares, 也就是n倍方差,是样本实际值偏离中心的程度(y_i-\bar{y})^2。Total, 意味着这个是可分解的量。从残差和误差两个角度去分解。也就是估计值偏离样本实际值的程度(\hat{y_i}-\bar{y})^2+估计值偏离中样本心的程度(y_i-\hat{y_i})^2

但是SST=SSR+SSE不总是成立,条件:满足OLS的最优情况。因为OLS(least square)时,(y_i-\hat{y_i})^2 最小。对回归参数求一阶导,为0时的参数组,满足SST=SSR+SSE。

R-Square

R^2=\frac{SSR}{SST}=1-\frac{SSE}{SST} 

即:在对于样本中心总的偏离中,有多大程度是由于“回归偏离”引起的。也就是,error 占比越小,regression占比越大,那么样本真实值就越能被regressed出来 \Rightarrow 模型的拟合度越高。

此时|R|\rightarrow1。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值