R语言中的多元方差分析

1、当因变量(结果变量)不止一个时,可用多元方差分析(MANOVA)对它们同时进行分析。

library(MASS)
attach(UScereal)
y <- cbind(calories, fat, sugars)
aggregate(y, by = list(shelf), FUN = mean)

 Group.1 calories       fat    sugars
1       1 119.4774 0.6621338  6.295493
2       2 129.8162 1.3413488 12.507670
3       3 180.1466 1.9449071 10.856821
cov(y)

 calories       fat     sugars
calories 3895.24210 60.674383 180.380317
fat        60.67438  2.713399   3.995474
sugars    180.38032  3.995474  34.050018
fit <- manova(y ~ shelf)
summary(fit)

    Df  Pillai approx F num Df den Df  Pr(>F)   
shelf      1 0.19594    4.955      3     61 0.00383 **
Residuals 63                                          
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
summary.aov(fit)

 Response calories :
            Df Sum Sq Mean Sq F value    Pr(>F)    
shelf        1  45313   45313  13.995 0.0003983 ***
Residuals   63 203982    3238                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


 Response fat :
            Df  Sum Sq Mean Sq F value   Pr(>F)   
shelf        1  18.421 18.4214   7.476 0.008108 **
Residuals   63 155.236  2.4641                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1


 Response sugars :
            Df  Sum Sq Mean Sq F value  Pr(>F)  
shelf        1  183.34  183.34   5.787 0.01909 *
Residuals   63 1995.87   31.68                  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

2、评估假设检验

单因素多元方差分析有两个前提假设,一个是多元正态性,一个是方差—协方差矩阵同质性。

(1)多元正态性

第一个假设即指因变量组合成的向量服从一个多元正态分布。可以用Q-Q图来检验该假设条件。

center <- colMeans(y)
n <- nrow(y)
p <- ncol(y)
cov <- cov(y)
d <- mahalanobis(y, center, cov)
coord <- qqplot(qchisq(ppoints(n), df = p), d, main = "QQ 
Plot Assessing Multivariate Normality", 
    ylab = "Mahalanobis D2")
abline(a = 0, b = 1)
identify(coord$x, coord$y, labels = row.names(UScereal))


如果所有的点都在直线上,则满足多元正太性。

2、方差—协方差矩阵同质性即指各组的协方差矩阵相同,通常可用Box’s M检验来评估该假设

3、检测多元离群点

library(mvoutlier)
outliers <- aq.plot(y)
outliers


  • 5
    点赞
  • 54
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
首尔自行车数据分析 R首尔共享单车需求数据集的回归分析 • 执行模型分析以预测每小时所需的自行车数量,以确保租赁自行车的稳定供应 • 使用 R、机器学习和统计建模技术 导言:数据集的背景/动机 目前,许多主要城市都引入了租赁自行车,以提高机动性、舒适性和环保交通。重要的是要让公众在适当的时候可以使用和使用租赁自行车,因为这可以缩短等待时间。最终,为城市提供稳定的租赁自行车供应是一个主要问题。有许多因素,如温度、一天的时间、假期、季节等,可能会影响自行车的可用性。关键部分是预测每小时所需的自行车数量,以稳定租赁自行车的供应。 使用天气数据[1]的首尔自行车共享需求预测的基于规则的模型使用了两个数据集——首尔自行车和首都自行车共享计划。它给出了5个统计模型的结果,这些模型使用重复交叉验证方法用优化的超参数进行训练,并使用测试集进行评估:(a)立方体(b)正则化随机森林(c)分类和回归树(d)K近邻(e)条件推理树。使用R2、均方根误差、平均绝对误差和变异系数等多重评估指标来衡量回归模型的预测性能。结果表明,基于规则的CUBIST模型能够解释汉城自行车测试集约95%的方差(R2)。对所有开发的模型进行了变量重要性分析,以分析最重要的变量。这些模型表明,温度和一天的小时数是小时租赁自行车需求预测最有影响的变量。 Cubist模型是在Quinlan的M5模型树的基础上引入的,该模型树创建了一系列“if-after-after”规则,其每个规则都有一个相关的线性多元模型。立体主义模型的好处在于,它是一种可行的回归方法,可以应用于各种问题。 在预测自行车共享需求的回归模型[2],他们对汉城自行车数据集应用了回归模型,得出的值为0.567,表明线性回归能够确定56.7%的自行车租赁数量变化。研究论文指出,低R平方值的回归模型可能是非常好的模型,原因有几个,因为某些研究领域存在大量无法解释的内在差异。在这些区域,R2值必然较低。 如果一个人的R平方值较低,但自变量在统计上具有显著性,那么仍然可以得出关于变量之间关系的重要结论。正如本文所观察到的,0.56是一个相对较低的值,但统计显著性有助于更好地了解影响自行车租赁数量的因素。从数据集提取更好的结果和模式的进一步范围包括实现高级算法,如分类树、随机森林、K近邻。 在这个项目,我们的目标是使用统计数据来确定哪些因素导致每小时租赁自行车的最佳供应。例如,如果温度太高,能见度差,我们将供应少量的自行车,因为需求会减少。如果我们的模型成功,它将允许自行车所有者和管理者决定在任何给定时间租用的自行车数量。自行车使用者也将体验到友好舒适的服务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值