目录
一、回归分析
回归:regression,通常指用一个或多个预测变量,也称自变量或解释变量,来预测响应变量,也称因变量、效标变量或结果变量的方法。例如想要预测:
回归分析的类型:
普通最小二乘回归法简介:
Residuals:真实值和预测值之间的差,值越小模型越精确。
Coefficients:系数项,Intercept表示截取项,也就是在线性代数中,当x为0时与y轴相交点,由上图可见weight=3.45*Height-87.51667。
Residual standard error表示残差的标准误差,越小越好。
Multiple R-squared:上图的0.991表示这个模型能表示百分之99.1的数据,可见越大越好。
例如一个二项式回归:
多元线性回归:
这种变量太多而不确定最佳模型时可以使用全子集回归法或者逐步回归法来判断确认。
AIC函数:
抽样验证结论:
1.数据集中有100个样本,随机抽取500个数据进行回归分析。
2.模型建好后,利用predict函数,对剩余500个样本进行预测 ,比较残差值。
回归诊断:
判断以下问题:这个模型是否时最佳模型?模型多大程度满足OLS模型的统计假设?模型是否能经得起更多数据的检验?如果你和出来的模型指标不好,改如何继续下去?
二、方差分析
称为Analysis of Variance,简称ANOVA,也称为“变异数分析”,用于两个及以上样本均数差别的显著性检验,从广义上来讲,方差分析也属于回归分析的一种,只不过线性回归的因变量一般是连续性变量。而当自变量是因子时,研究关注的重点通常会从预测转向不同组之间差异的比较,这就是方差分析。
方差分析会大量用在科学研究中,例如实验设计时,进行分组比较,例如药物研究实验室处理组与对照组进行比较。
回归分析的类型:
1.单因素方差分析ANOVA(组内、组间):
2.双因素方差分析ANOVA:
3.协方差分析ANCOVA:
如果方差分析中,包含了协变量(干扰变量)就属于协方差分析了。
4.多元方差分析MANOVA:
如果方差研究中包含了多个因变量,那么这种实验设计称为多元方差分析。
5.多元协方差分析MANCOVA:
方差分析函数以及用法:
三、功效分析
power analysis,可以帮助在给定置信度的情况下判断检测到给定效应值时随需的样本量,反过来,它也可以在给定置信度水平的情况下计算某样本量内能检测到给定效应值的概率。
功效分析理论基础:
四、广义线性模型
线性回归和方差分析都是基于正态分布的假设,广义线性模型扩展了线性模型的框架,它包含了非正态因变量的分析,在R中可以通过glm函数来进行广义线性分析。
泊松回归:
它是用来为计数资料和列联表建模的一种回归分析。泊松回归假设因变量是泊松分布,并假设它平均值的对数可被未知参数的线性组合建模。
Logistic回归:
当通过一系列连续型或类别型预测变量来预测二值型结果变量时,Logistic回归是一个非常有用的工具。案例例如:根据危险因素预测某疾病发生的概率。想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或 “否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。
主成分分析:
Principal Component Analysis,简称PCA,是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关的变量称为主成分,主成分其实是对原始变量重新进行线性组合,将原先众多具有一定相关性的指标重新组合为一组的新的相互独立的综合指标。
主成分分析的步骤(同因子分析):
因子分析:
探索性因子分析法,Exploratory Factor Analysis,简称EFA,是一些列用来发现一组变量的潜在结构的方法,它通过寻找一组更小的,潜在的或隐藏的结构来解释已观测到的、显示的变量间的关系。
主成分分析与因子分析的对比:
2.都消除了原始指标的相关性对综合评价所照成的信息重复影响。
2.目的是样本数据信息损失最小的原则下,对高维变量进行降维。
3.参数估计,一般是求相关矩阵的特征值和相应的特征向量,取前几个计算主成分。
3.参数估计,指定几个公因子,将其还原成相关数矩阵,在和原样本相关矩阵最相似原则下,估计各个公因子地估计值。