线性回归是一种基本的预测建模技术,用于建立因变量(目标)和自变量(特征)之间的关系。在简单线性回归中,我们有一个自变量和一个因变量,而在多元线性回归中,我们可能有多个自变量。
线性回归的实现原理
线性回归试图找到一条最佳的直线(在多维空间中可能是超平面),使得预测值与实际值之间的误差平方和最小。误差平方和通常被称为“残差平方和”(RSS)或“损失函数”。
线性回归的数学模型可以表示为:
(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_n x_n)
其中,(y) 是预测值,(\beta_0) 是截距,(\beta_1, \beta_2, ..., \beta_n) 是回归系数(或称为权重),(x_1, x_2, ..., x_n) 是特征值。
为了找到最佳的回归系数,我们通常使用最小二乘法(OLS, Ordinary Least Squares)。这涉及到求解线性方程组来最小化RSS。
线性回归的源码实现(Python)
这里我们使用NumPy库来实现一个简单的线性回归算法:
import numpy as np
class LinearRegression:
def __init__(self, learning_rate=0.01, n_iters=1000):
self.lr = learning_rate
self.n_iters = n_iters
self.weights = None
self.bias = None
def fit(self, X, y):
n_samples, n_features = X.shape
# 初始化权重和偏置项
self.weights = np.zeros(n_features)
self.bias = 0
# 梯度下降
for _ in range(self.n_iters):
y_predicted = np.dot(X, self.weights) + self.bias
# 计算梯度
dw = (1 / n_samples) * np.dot(X.T, (y_predicted - y))
db = (1 / n_samples) * np.sum(y_predicted - y)
# 更新权重和偏置项
self.weights -= self.lr * dw
self.bias -= self.lr * db
def predict(self, X):
y_predicted = np.dot(X, self.weights) + self.bias
return y_predicted
# 示例用法
# 创建一些示例数据
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([2, 4, 6, 8, 10])
# 初始化并训练模型
model = LinearRegression(learning_rate=0.01, n_iters=1000)
model.fit(X, y)
# 预测新数据
X_new = np.array([[6]])
y_pred = model.predict(X_new)
print(f"Predicted value for X=6: {y_pred[0]}")
源码解释
-
初始化(
__init__
方法):我们设置了学习率(learning_rate
)和迭代次数(n_iters
)作为超参数。同时,我们还初始化了权重(weights
)和偏置项(bias
)。 -
拟合(
fit
方法):- 首先,我们获取输入数据
X
的形状,即样本数(n_samples
)和特征数(n_features
)。 - 接着,我们初始化权重和偏置项为0。
- 然后,我们使用梯度下降算法来迭代更新权重和偏置项。在每次迭代中,我们计算预测值、梯度,并使用学习率来更新权重和偏置项。
- 首先,我们获取输入数据
-
预测(
predict
方法):对于新的输入数据X
,我们使用训练得到的权重和偏置项来计算预测值。 -
示例用法:我们创建了一些简单的示例数据,并用这些数据来训练模型。然后,我们使用训练好的模型来预测新数据点
X=6
的值。最后,我们打印出预测值。