R语言学习笔记_20240702_03

summary、lm、predict

summary() 是一个通用函数,它可以根据不同的类(class)调用不同的方法
lm() 是 R 语言中用于拟合线性模型的函数。
predict() 是 R 语言中用于根据模型进行预测的函数,常用于回归和分类模型。

data(iris) # Edgar Anderson的鸢尾花数据
summary(iris) #数据框摘要
#拟合线性模型
irisLm <- lm(Sepal.Length ~ Sepal.Width + Species, data=iris)
summary(irisLm) #模型摘要
plot(irisLm) #可视化模型结果
# 创建新的数据框来包含新的观测值
mynewdata <- data.frame(
  Sepal.Width = c(3.0, 3.5),  # 新的萼片宽度
  Species = c("setosa", "versicolor")  # 新的物种类型
)
# 预测新数据的 Sepal.Length
predicted_lengths <- predict(irisLm , newdata= mynewdata)

在使用predict(),进行预测需要根据模型表达式,给出包含模型右侧变量的数据框。

plot() 函数

使用 plot() 函数并传入一个由 lm() 拟合的线性模型对象时,R 会生成一系列的诊断图 :
可以通过 which 参数指定不同的诊断图。以下是 which = 1 到 which = 6 分别代表的图形:

which = 1:残差与拟合值的图(Residuals vs. Fitted)。显示残差随拟合值的变化,检查是否存在模式或非随机结构。

which = 2:标准化残差的 Q-Q 图(Normal Q-Q plot)。展示标准化残差与正态分布的比较,用于检查残差的正态性。
which = 3:尺度-位置图(Scale-Location plot)。这是残差与拟合值的另一种表示,其中残差被缩放到拟合值的尺度。

which = 4:Cook’s 距离图(Cook’s distance plot)。显示每个观测值的 Cook’s 距离,用于识别对模型拟合有较大影响的点。

which = 5:残差与杠杆值(leverage)的图(Residuals vs. Leverage)。杠杆值衡量观测值对拟合值的影响。图中可能包含一个红色的轮廓线,表示具有高杠杆值的点。

which = 6:Cook’s 距离(Cook’s distance)与杠杆值(leverage)的图。用于识别对线性回归模型拟合有较大影响的观测点。图中的点如果远离原点,特别是 Cook’s 距离较高的点,可能表明这些观测值对模型的拟合有较大的影响,需要进一步的调查或考虑从模型中排除。

iris数据集

iris 是 R 语言中内置的一个非常著名的数据集,它包含了来自三种不同鸢尾花(Iris setosa, Iris versicolor, 和 Iris virginica)的测量数据。每种花都有 50 个样本,因此整个数据集总共包含 150 个样本。每个样本都有以下四个度量特征:

项目Value
Sepal.Length萼片长度,单位为厘米。
Sepal.Width萼片宽度,单位为厘米。
Petal.Length花瓣长度,单位为厘米。
Petal.Width花瓣宽度,单位为厘米。
Species花的种类,是一个分类变量,包含三个水平:setosa, versicolor 和 virginica。

这个数据集通常用于测试统计方法和机器学习算法,特别是用于分类和回归任务。由于其数据量适中、特征数量有限且包含分类变量,iris 数据集是进行数据可视化、探索性数据分析和模型演示的理想选择。

  • 12
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值