R数据分析入门记录

目录

一、回归分析

回归分析的类型:

普通最小二乘回归法简介:

例如一个二项式回归:

多元线性回归:

AIC函数:

抽样验证结论:

回归诊断:

二、方差分析

回归分析的类型:

1.单因素方差分析ANOVA(组内、组间):

2.双因素方差分析ANOVA:

3.协方差分析ANCOVA:

4.多元方差分析MANOVA:

5.多元协方差分析MANCOVA:

方差分析函数以及用法:

三、功效分析

功效分析理论基础:

四、广义线性模型

泊松回归:

Logistic回归:

主成分分析:

主成分分析的步骤(同因子分析):

因子分析:

主成分分析与因子分析的对比:

购物篮分析:


一、回归分析

回归:regression,通常指用一个或多个预测变量,也称自变量或解释变量,来预测响应变量,也称因变量、效标变量或结果变量的方法。例如想要预测:

1.锻炼时间与小号卡路里之间的关系。

是直线关系还是曲线关系?

卡路里消耗到某个点后,锻炼是否还有效果?

对年轻人和老人的影响是一致的吗?

对男性和女性的影响是一致的吗?

对肥胖的人和苗条的人的影响是一致的吗?

2.在道路建设工程中,铺路表面积与表面盐度的关系。

3.教育环境中影响到学生的因素。

4.过量糖分与盐分摄入对身体有哪些影响?

5.万达广场的建设与周边房价的影响。

回归分析的类型:

普通最小二乘回归法简介:

例如:

Call:列出使用的回归分析的公式。

Residuals:真实值和预测值之间的差,值越小模型越精确。

Coefficients:系数项,Intercept表示截取项,也就是在线性代数中,当x为0时与y轴相交点,由上图可见weight=3.45*Height-87.51667。

Signif.codes:三星最好。

Residual standard error表示残差的标准误差,越小越好。

Multiple R-squared:上图的0.991表示这个模型能表示百分之99.1的数据,可见越大越好。

例如一个二项式回归:

还可以再加:

多元线性回归:

再例如:

这种变量太多而不确定最佳模型时可以使用全子集回归法或者逐步回归法来判断确认。

AIC函数:

AIC()函数可以来比较模型。

抽样验证结论:

1.数据集中有100个样本,随机抽取500个数据进行回归分析。

2.模型建好后,利用predict函数,对剩余500个样本进行预测 ,比较残差值。

3.如果预测准确,说明模型可以,否则需要调整模型。

回归诊断:

判断以下问题:这个模型是否时最佳模型?模型多大程度满足OLS模型的统计假设?模型是否能经得起更多数据的检验?如果你和出来的模型指标不好,改如何继续下去?

二、方差分析

称为Analysis of Variance,简称ANOVA,也称为“变异数分析”,用于两个及以上样本均数差别的显著性检验,从广义上来讲,方差分析也属于回归分析的一种,只不过线性回归的因变量一般是连续性变量。而当自变量是因子时,研究关注的重点通常会从预测转向不同组之间差异的比较,这就是方差分析。

方差分析会大量用在科学研究中,例如实验设计时,进行分组比较,例如药物研究实验室处理组与对照组进行比较。

回归分析的类型:

1.单因素方差分析ANOVA(组内、组间):

s1 -  s10为患者编号,两种治疗方案。

2.双因素方差分析ANOVA:

3.协方差分析ANCOVA:

如果方差分析中,包含了协变量(干扰变量)就属于协方差分析了。

4.多元方差分析MANOVA:

如果方差研究中包含了多个因变量,那么这种实验设计称为多元方差分析。

5.多元协方差分析MANCOVA:

第四条之上包含了协变量。

方差分析函数以及用法:

方差分析中,顺序非常重要:

三、功效分析

power analysis,可以帮助在给定置信度的情况下判断检测到给定效应值时随需的样本量,反过来,它也可以在给定置信度水平的情况下计算某样本量内能检测到给定效应值的概率。

功效分析理论基础:

四、广义线性模型

线性回归和方差分析都是基于正态分布的假设,广义线性模型扩展了线性模型的框架,它包含了非正态因变量的分析,在R中可以通过glm函数来进行广义线性分析。

泊松回归:

它是用来为计数资料和列联表建模的一种回归分析。泊松回归假设因变量是泊松分布,并假设它平均值的对数可被未知参数的线性组合建模。

Logistic回归:

当通过一系列连续型或类别型预测变量来预测二值型结果变量时,Logistic回归是一个非常有用的工具。案例例如:根据危险因素预测某疾病发生的概率。想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或 “否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。

主成分分析:

Principal Component Analysis,简称PCA,是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关的变量称为主成分,主成分其实是对原始变量重新进行线性组合,将原先众多具有一定相关性的指标重新组合为一组的新的相互独立的综合指标。

主成分分析的步骤(同因子分析):

1.数据预处理。

2.选择分析模型。

3.判断要选择的主成分/因子数目。

4.选择主成分/因子。

5.旋转主成分/因子。

6.解释结果。

7.(可选)计算主成分或因子得分。

因子分析:

探索性因子分析法,Exploratory Factor Analysis,简称EFA,是一些列用来发现一组变量的潜在结构的方法,它通过寻找一组更小的,潜在的或隐藏的结构来解释已观测到的、显示的变量间的关系。

主成分分析与因子分析的对比:

在进行分析同一组数据时:

相同点:

1.都对原始数据进行了降维处理。

2.都消除了原始指标的相关性对综合评价所照成的信息重复影响。

3.构造综合评价时所涉及的权数具有客观性。

4.在信息损失不大的前提下,减少了评价工作量。

不同点:

主成分分析:

1.用较少的变量表示原来的样本。

2.目的是样本数据信息损失最小的原则下,对高维变量进行降维。

3.参数估计,一般是求相关矩阵的特征值和相应的特征向量,取前几个计算主成分。

4.应用:应用较少变量来解释各个样本的特征。

因子分析:

1.用较少的因子表示原来的变量。

2.目的是尽可能地保持原变量项目关系,寻找变量地公共因子。

3.参数估计,指定几个公因子,将其还原成相关数矩阵,在和原样本相关矩阵最相似原则下,估计各个公因子地估计值。

4.应用:找到具有本质意义地少量因子来归纳原来变量的特征。

正交旋转:

斜交旋转:

用factor.plot(...)绘制正交或者斜交图形。

购物篮分析:

使用apriori()进行建模。用summary()和inspect()函数进行结构查看。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值