回归主要关注一个因变量(dependent variable)(也是需要预测的值)和一个或多个自变量(independent variable)
回归有很多种比如(线性回归、逻辑回归、泊松回归....)这里主要讨论线性回归。线性回归又可以分成简单线性回归 和 多元回归。[其中因变量假设是连续的]
简单线性回归:OLS(最小二乘法)
```
y = a*x + b (拟合函数)
```
即通过数据集中的自变量 x 求出 因变量 y ,主要是求函数的参数 (a/b)
用的是最小二乘法, e = ∑((y-yp)^2); y是实际值,yp是预测值,e就是残差平方和
用的是使e最小,对a,b求偏导 = 0的方式,将a/b带入e中,分别求得b,a的值
b = ∑(x-mean(x))∑(y-mean(y))/∑(x-mean(x))^2
or
b = cov(x,y)/var(x) # (x,y 的协方差除以 x 的方差)
(补充:相关系数 cor = cov(x,y) / (sd(x)*sd(y))
协方差:cov(x,y) = E[(X-E(X)(Y-E(Y))];协方差=0 则说明 x,y两组数据相互独立 )
多元回归:
y = a*x + b
与上面几乎一样,但是这时,a 是 一个向量,x 是一个矩阵,同样需要求取 a 的向量值,不过是运用矩阵的计算,比较复杂,但是r语言内置的lm函数会帮我计算的。
R中可以用基本包stats包中的是lm函数 or leap包中regsubsets函数
l_m <- lm(y~.,data)
l_pred <- predict(l_m,test)
summary(l_m)#可以看见残差,系数,显著性,赤池信息 等....
如果x(自变量)中有因子型变量,lm函数会自动对其进行哑变量处理,例如
a = ['q','b','b','q','w','w']
q = [1,0,0,1,0,0]
b = [0,1,1,0,0,0]
(w = [0,0,0,0,1,1]) #这一列是不需要的,也就是说R会将a中 n 个的因子转化成 n-1 哑变量。
leaps包(逐步回归法)
lp_m <- regsugsets(t~.,data,nvmax = ?(取决于变量数),method = 'forward'or'backward')#向前、向后逐步回归
R---简单线性回归
最新推荐文章于 2023-05-22 08:04:28 发布