回归分析是一种非常广泛使用的统计工具,用于建立两个变量之间的关系模型。
这些变量之一称为预测变量(自变量x),其值通过实验收集。
另一个变量称为响应变量(因变量y),其值从预测变量派生。
一元线性回归
在线性回归中,预测变量与相应变量通过方程相关,其中这两个变量的指数(幂)为1.
数学上,线性关系表示:当绘制为图时的直线。 任何变量的指数不等于1的非线性关系将创建一条曲线。
线性回归的一般数学方程为 :
y = ax + b
以下是所使用的参数的描述:
- y是响应变量。
- x是预测变量。
- a和b被称为系数常数。
创建关系的步骤是 :
- 进行收集观测值的样本的实验。
- 使用R语言中的lm()函数创建关系模型。
- 从创建的模型中找到系数,并使用这些创建数学方程
- 获得关系模型的摘要以了解预测中的平均误差。 也称为残差。
- 为了预测新的结果,使用R中的predict()函数。
举个栗子:
已知人的身高预测人的体重
样本数据集如下所示:
# Values of height
151, 174, 138, 186, 128, 136, 179, 163, 152, 131
# Values of weight.
63, 81, 56, 91, 47, 57, 76, 72, 62, 48
lm( ) 函数
lm(formula,data)
- formula是表示x和y之间的关系的符号。
- data是应用公式的向量。
获取公式:
输入:
x <- c(151, 174, 138, 186, 128, 136, 179, 163, 152, 131)
y <- c(63, 81, 56, 91, 47, 57, 76, 72, 62, 48)
# Apply the lm() function.
relation <- lm(y~x)
print(relation)
输出:
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept) x
-38.4551 0.6746
即 y = 0.6746x + (-38.4551)
获取总结:
输入:
x <- c(151, 174, 138, 186, 128, 136,