一、回归分析
它是一种通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种工具。
二、研究范围
线性回归
非线性回归
logistic回归
岭回归
主成分回归
岭回归和主成分和回归都是解决变量之间的多重共线性关系的,是对最小二乘法的改进
三、常见的二分类回归模型———logistic回归
(1)Locistic 函数
模型中因变量只有0和1,假设p个独立自变量x1,x2,x3.........xp作用下,y取1的概率是p,则去0的概率是1-p,则取1和0的概率之比为p/(1--p),称为优势比,将此式子取对数,则logit(p)=ln(p/(1-p))=z,则p=1/(1+e(-z))是logistic函数。
(2)建模步骤
1)设置因变量和自变量,寻找相关数据
2)列出回归模型:ln(p/(1-p))=b0+b1 x1+b2 x2+......+bp xp+e
3)根据输出的方差分析表中F值和p值来检验该回归方程是否显著,如果p值小于显著性水平a则模型通过检验,否则重新选择指标变量。
4)进行回归系数显著性检验(回归方程显著不一定代表每个变量也显著,则需要对每一个变量的显著性水平进行检验),采用逐步回归进行检验,后面会有说明。
5)模型应用,进行预测。
四、代码
#读入数据为Data
#给数据命名
colnames(Data)<-c("x1","x2","x3"......"xn“,"y")
#logistic回归模型
glm(y~x1+x2+x3+x4+......xn,family=binomial(link=logit),data=Data)
summary(glm)
###采用逐步回归法对变量进行显著性检验
logit.step-step(glm,direction="both")
summary(logit.step)
###向前选择法
logit.step-step(glm,direction="forward")
summary(logit.step)
###向后选择法
logit.step-step(glm,direction="backward")
summary(logit.step)
最终选择AIC值最小的方法所对应的回归方程及变量
特别说明:向前选择法是一种添加变量的方法而向后则是剔除变量使得方程最后只留下对y有显著影响的变量