回归分析与方差分析在统计建模中的应用-CSDN博客

本文链接：https://blog.csdn.net/qq_30168227/article/details/121545787

1.单因素方差分析ANOVA（组内、组间）：

一、回归分析

回归：regression，通常指用一个或多个预测变量，也称自变量或解释变量，来预测响应变量，也称因变量、效标变量或结果变量的方法。例如想要预测：

1.锻炼时间与小号卡路里之间的关系。

是直线关系还是曲线关系？

卡路里消耗到某个点后，锻炼是否还有效果？

对年轻人和老人的影响是一致的吗？

对男性和女性的影响是一致的吗？

对肥胖的人和苗条的人的影响是一致的吗？

2.在道路建设工程中，铺路表面积与表面盐度的关系。

3.教育环境中影响到学生的因素。

4.过量糖分与盐分摄入对身体有哪些影响？

5.万达广场的建设与周边房价的影响。

回归分析的类型：

普通最小二乘回归法简介：

例如：

Call：列出使用的回归分析的公式。

Residuals：真实值和预测值之间的差，值越小模型越精确。

Coefficients：系数项，Intercept表示截取项，也就是在线性代数中，当x为0时与y轴相交点，由上图可见weight=3.45*Height-87.51667。

Signif.codes：三星最好。

Residual standard error表示残差的标准误差，越小越好。

Multiple R-squared：上图的0.991表示这个模型能表示百分之99.1的数据，可见越大越好。

例如一个二项式回归：

还可以再加：

多元线性回归：

再例如：

这种变量太多而不确定最佳模型时可以使用全子集回归法或者逐步回归法来判断确认。

AIC函数：

AIC()函数可以来比较模型。

抽样验证结论：

1.数据集中有100个样本，随机抽取500个数据进行回归分析。

2.模型建好后，利用predict函数，对剩余500个样本进行预测，比较残差值。

3.如果预测准确，说明模型可以，否则需要调整模型。

回归诊断：

判断以下问题：这个模型是否时最佳模型？模型多大程度满足OLS模型的统计假设？模型是否能经得起更多数据的检验？如果你和出来的模型指标不好，改如何继续下去？

二、方差分析

称为Analysis of Variance，简称ANOVA，也称为“变异数分析”，用于两个及以上样本均数差别的显著性检验，从广义上来讲，方差分析也属于回归分析的一种，只不过线性回归的因变量一般是连续性变量。而当自变量是因子时，研究关注的重点通常会从预测转向不同组之间差异的比较，这就是方差分析。

方差分析会大量用在科学研究中，例如实验设计时，进行分组比较，例如药物研究实验室处理组与对照组进行比较。

回归分析的类型：

1.单因素方差分析ANOVA（组内、组间）：

s1 - s10为患者编号，两种治疗方案。

2.双因素方差分析ANOVA：

3.协方差分析ANCOVA：

如果方差分析中，包含了协变量（干扰变量）就属于协方差分析了。

4.多元方差分析MANOVA：

如果方差研究中包含了多个因变量，那么这种实验设计称为多元方差分析。

5.多元协方差分析MANCOVA：

第四条之上包含了协变量。

方差分析函数以及用法：

方差分析中，顺序非常重要：

三、功效分析

power analysis，可以帮助在给定置信度的情况下判断检测到给定效应值时随需的样本量，反过来，它也可以在给定置信度水平的情况下计算某样本量内能检测到给定效应值的概率。

功效分析理论基础：

四、广义线性模型

线性回归和方差分析都是基于正态分布的假设，广义线性模型扩展了线性模型的框架，它包含了非正态因变量的分析，在R中可以通过glm函数来进行广义线性分析。

泊松回归：

它是用来为计数资料和列联表建模的一种回归分析。泊松回归假设因变量是泊松分布，并假设它平均值的对数可被未知参数的线性组合建模。

Logistic回归：

当通过一系列连续型或类别型预测变量来预测二值型结果变量时，Logistic回归是一个非常有用的工具。案例例如：根据危险因素预测某疾病发生的概率。想探讨胃癌发生的危险因素，可以选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌，即“是”或 “否”，为两分类变量，自变量就可以包括很多了，例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的，也可以是分类的。通过logistic回归分析，就可以大致了解到底哪些因素是胃癌的危险因素。