线性回归介绍之五——回归与方差分析的关系

如果是初学者,看到这个题目一定有点惊奇:线性回归和方差分析还有关系?其实这不怪他们,应该是怪统计学教材以及统计教师。几乎所有的医学统计学教材中都把方差分析和线性回归分为独立两章,这倒不要紧,但是却没有专门的一章把它们的关系讲透,以至于许多学生学了很久都只能获得零零散散的珠子,缺乏一条将他们穿起来的线。这篇文章的目的就是通过一般线性模型(general linear model)的介绍,将方差分析与线性回归串起来。

这里仍然只是以单因素的线性回归为例,因为这样容易看懂。

对于随机设计的方差分析,其实如果大家注意一下,就应该发现,它们其实一共是两个变量,一个是分组变量,一个是分析的变量。比如,比较3种药物的降压效果,药物就是分组变量,有3个取值;血压值就是分析的变量。当然,对于方差分析来讲,分析变量一般都是连续型资料,而分组变量一般都是分类资料。

如果再注意看一下线性回归的形式,也应该发现,最简单的线性回归也是两个变量,一个是因变量或结局变量,一个是自变量或原因变量。比如体重对肺活量的影响。对于线性回归来讲,自变量和因变量都是连续型资料。

如果将这线性回归中的两个变量与方差分析中的两个变量比较一下,可以发现他们是一致的。方差分析中的分析变量实际上就是线性回归中的因变量,方差分析中的分组变量就是线性回归中的自变量。这两个方法的目的都是为了看自变量(分组变量)对因变量(分析变量)的影响。如上面所说的,目的就是为了看药物对血压的影响,体重对肺活量的影响。

比较一下,可以发现,线性回归和方差分析的结果变量是一样的,都是连续型资料,而自变量就不一样了,方差分析中是分类资料,而线性回归中是连续型资料。但他们都可以统一到一个大的范畴中,即一般线性模型。

其实如果把方差分析的形式改一下,大家可能就更容易理解了。一般的方差分析的数据大都列成这样的形式:

ABC
121632
141723
151728
131931
142128

如果A、B、C分别用1、2、3来表示,列成下面的格式:

yx
121
141
151
131
141
162
172
172
192
212
323
233
283
313
283

怎么样,这种形式跟线性回归的形式差不多了吧?y就是因变量,x就是自变量。唯一与线性回归不同的地方是:线性回归中的x和y是一一对应的,而这里的x和y是一对多的,即1个x对应多个y值,但这不影响分析。其实即使在线性回归中,偶尔也会出现一对多的现象的。比如体重对肺活量的影响,如果有好几个人体重相同而肺活量不同,就出现了一对多的现象。这就跟方差分析更像了。

最后加点总结性的、理论性的东西,一般线性模型的形式大致可以这样:

y=α+βx+ε,

这个其实大家都应该很熟悉了,在统计教材中的线性回归章节中一般都有这个公式。这里的y就是因变量,x就是自变量,但是这里需要注意的就是,x是分类变量的时候,就变成了方差分析的形式了,当x是连续型变量的时候,就变成了线性回归的形式了。

总之,正如哲学中内容与形式的原理,一般线性模型是内容,x的变化则显示了其不同的形式,但无论如何,它们的内容都是一般线性模型。

  • 10
    点赞
  • 43
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
整套大数据课程从hadoop入门开始,由浅入深,内置“hadoop源码解析与企业应用开发实战”,“Hive开发实战”,“Hbase开发实战”,“Spark,mahout,sqoop,storm诸模块开发实战”,“数据挖掘基础。这个系列课程有几个板块组成,所以学员可以按照自己的实际情况选择学习。例如,对于只需要了解hadoop基本编程的人,只需要选择“hadoop源码解析与企业应用开发实战”模块就可以了;对于立志于从事大数据领域的零起点人员,可以选择四个板块依次学习;对于已经有一定基础的hadoop开发人员,你可以根据自己的情况,选择学习模块,而不必4个板块从头开始学。 特点1:真正做到从0开始,从入门到精通 特点2:适合不同基础的学员学习 特点3:阶梯式课程,每个阶段都有明确的主题和目标 第1周 数据分析基础 要点 数据分析流程、方法论(PEST、5W2H、逻辑树)、基础数据分析方法、数据分析师能力层级、数据的度量、探索、抽样、原理及实际操作,结合SPSS工具使用 第2周 数据挖掘基础 要点(数据挖掘概念、流程、重要环节、基础数据处理方法(缺失值、极值)、关联性分析方法(相关分析、方差分析、卡方分析)、原理及实际操作 第3周 数据挖掘工具介绍及Modeler软件使用 要点 使用Modeler,实际数据操作,为后续课程准备) 第4周 挖掘-分类 要点(决策树 C5.0、逻辑回归,最常用的二种算法,原理及实际建模操作) 第5周 挖掘-聚类 要点(层次聚类、kmeans)、挖掘-关联(Apriori),挖掘-预测(线性回归,指数平滑,移动平均), 原理及实际建模操作 第6周 数据挖掘实战 要点(以目标客户挖掘为例,从业务分析、方案制定、数据处理、数据准备、变量筛选、建模、评测、部署各个环节,使用Modeler工具,讲述建模的全过程)
试验数据处理:根据测定数据,寻找各参数间的相互关系,用方程或图形予以表达。 试验数据的表达方式:数字表达、图形表达、经验公式表达 试验数据的曲线拟合:将实验数据用最能反映实验过程规律的函数式来表示。 通常采用最小二乘法原理进行曲线拟合。 最小二乘法原理: 数据的残差平方和最小的曲线是最能反映实验数据的曲线。 一元线性回归分析及方法: 回归分析:采用最小二乘法原理确定实验数据之间的关系(求经验公式)的数理统计方 法。 一元回归:影响过程只有一个因素时(处理两个变量之间关系); 1一元线性回归方程的一般形式: 其中:a、b为线性回归系数。为测定数据的平均值。 偏差: 2 确定回归方程的回归参数: 按最小二乘原则确定回归方程的回归参数。令:Qy为偏差的平方和。 故 根据多元函数极值定理,有: 整理得: 3 回归方程的显著性检验: 对任何两个变量x、y(初步判定有线性相关关系)都能按上式找出其回归方程,但只有 在两变量线性相关显著时,该回归方程才有实际意义。资料个人收集整理,勿做商业用 途 方差检验法:令: Qz为总偏差平方和-- 反映全部检验数据y对i的变动总离差平方和的自由度f=n-1。资料个人收集整理 ,勿做商业用途 据公式有: 回归平方和u:反映了回归直线上的点对平均值的变动。令检验数: >Fα 其中:偏差平方和自由度fq=f-fu 总偏差平方和:f=n-1=fu+ fq回归平方和自由度fu=自变量个数;。 显著性判断:回归高度显著( α= 0.01 ); 回归显著( α= 0.05 ); 回归不显著( α= 0.1 )。 根据显著性自由度α(或称置信度 )及回归平方和自由度fu、偏差平方和自由度fq查Fα分布表进行比较。 可以化为线性回归的非线性关系:有的非线性关系可以转化为线性回归处理。 常见转换 双曲线:1/y=a+b/x,令:X=1/x Y=A+BX; 对数曲线: y=a+b㏑x,令:X=㏑x Y=A+BX; 指数曲线: y=aebx,两边取对数并令:Y=㏑Y,A=㏑a Y=A+BX 幂函数曲线:y=axb,两边取对数并令:Y=㏑y,X=㏑x,A=㏑a Y=A+BX 随机性数据处理: 1、时域与幅值域分析内容:时域内容有自相关函数和互相关函数;幅值域有均值、方差 、均方差、概率密度函数等。资料个人收集整理,勿做商业用途 2、相关分析应用有哪些? 自相关函数:自相关——随机变量数据X(t)与X(t+τ)之间的相关性。 互相关函数:互相关——表示随机变量数据X(t)与Y(t)之间的相关性。 3、为什么要对实验数据进行频谱分析?常用方法有哪些? 原因:了解组成数据的频率成分; 了解各种频率对数据的影响作用的大小; 以便判断影响过程的因素(如振动、噪声的来源等)。 方法:1.周期性数据的频谱分析——谐波分析法 2、非周期性数据的频谱分析—傅立叶积分变换法 3.随机性数据的频谱分析——功率谱分析法 加窗: 截断:用有限长的采样信号代替无限的随机性数据的时间历程进行处理,称为截断。 泄漏:在数据处理中,由于信号截断导致能量分散,必然会产生一些误差,这一现象称 为泄漏。 栅栏效应:频谱经离散后,只能获得f=k f= k( fs/N) (k = o,1, 2,…,N一1)资料个人收集整理,勿做商业用途 的各频率成分,其余的频率成分被舍去。好象栅栏漏掉了一些东西一样,这种现象称为 栅栏效应。 快速傅里叶变换(FFT): 原因:进行DFT计算时,每计算k为定值的一个点,Xk就要作N次复数乘法,全部计算要作 Nk次复数乘法,N(N一1)次复数加法,计算工作量随N的增大而急剧增加;为减少计算工 作量,需对DFT计算方法进行改进。 资料个人收集整理,勿做商业用途 应用注意:把较长的数据序列分割成较短的数据序列(因为计算量与Nk成正比, N 计 算量 ),对这较短的数据序列进行DFT后,再合成为原数据序列的DFT。按照这样的做 法反复分割,使之最后只对最简短的数列进行DFT计算,以达到减少计算时间的目的。 资料个人收集整理,勿做商业用途 频谱分析 :对实验数据的频率特性进行分析(分析数据各种频率的分量或强度)。频谱分析不仅 可以分辨复杂的频率成分,而且还可以定量分析。因此,频谱分析在工程技术中得到了 广泛应用资料个人收集整理,勿做商业用途 1.振动系统固有频率的测定 : 用频谱分析确定汽车悬架固有频率 2.随机环境的模拟 : 在研究机件的强度,寿命以及可靠性等方面研究时,用频谱分析确定载荷谱以模拟随机 环境。将测得的振动加速度信号分析得到标准的Gx(f),经过傅里叶逆变换、D/A转换及 功率放大器,通过闭环控制使得振动台的振动加速资料个人收集整理,勿做商业用途 度与实测的汽车振动加速度的功率谱相一致(在要求的误差范围内)。 在振动台上模拟道路的随
首尔自行车数据分析 R中首尔共享单车需求数据集的回归分析 • 执行模型分析以预测每小时所需的自行车数量,以确保租赁自行车的稳定供应 • 使用 R、机器学习和统计建模技术 导言:数据集的背景/动机 目前,许多主要城市都引入了租赁自行车,以提高机动性、舒适性和环保交通。重要的是要让公众在适当的时候可以使用和使用租赁自行车,因为这可以缩短等待时间。最终,为城市提供稳定的租赁自行车供应是一个主要问题。有许多因素,如温度、一天中的时间、假期、季节等,可能会影响自行车的可用性。关键部分是预测每小时所需的自行车数量,以稳定租赁自行车的供应。 使用天气数据[1]的首尔自行车共享需求预测的基于规则的模型使用了两个数据集——首尔自行车和首都自行车共享计划。它给出了5个统计模型的结果,这些模型使用重复交叉验证方法用优化的超参数进行训练,并使用测试集进行评估:(a)立方体(b)正则化随机森林(c)分类和回归树(d)K近邻(e)条件推理树。使用R2、均方根误差、平均绝对误差和变异系数等多重评估指标来衡量回归模型的预测性能。结果表明,基于规则的CUBIST模型能够解释汉城自行车测试集中约95%的方差(R2)。对所有开发的模型进行了变量重要性分析,以分析最重要的变量。这些模型表明,温度和一天中的小时数是小时租赁自行车需求预测中最有影响的变量。 Cubist模型是在Quinlan的M5模型树的基础上引入的,该模型树创建了一系列“if-after-after”规则,其中每个规则都有一个相关的线性多元模型。立体主义模型的好处在于,它是一种可行的回归方法,可以应用于各种问题。 在预测自行车共享需求的回归模型[2]中,他们对汉城自行车数据集应用了回归模型,得出的值为0.567,表明线性回归能够确定56.7%的自行车租赁数量变化。研究论文指出,低R平方值的回归模型可能是非常好的模型,原因有几个,因为某些研究领域存在大量无法解释的内在差异。在这些区域,R2值必然较低。 如果一个人的R平方值较低,但自变量在统计上具有显著性,那么仍然可以得出关于变量之间关系的重要结论。正如本文所观察到的,0.56是一个相对较低的值,但统计显著性有助于更好地了解影响自行车租赁数量的因素。从数据集中提取更好的结果和模式的进一步范围包括实现高级算法,如分类树、随机森林、K近邻。 在这个项目中,我们的目标是使用统计数据来确定哪些因素导致每小时租赁自行车的最佳供应。例如,如果温度太高,能见度差,我们将供应少量的自行车,因为需求会减少。如果我们的模型成功,它将允许自行车所有者和管理者决定在任何给定时间租用的自行车数量。自行车使用者也将体验到友好舒适的服务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值