试思考当有2个及以上特征时，如何使用线性回归方法来实现拟合

不良使

已于 2023-07-25 12:46:04 修改

阅读量1k

点赞数 5

分类专栏：机器学习文章标签：线性回归算法回归

于 2021-12-06 09:47:04 首次发布

本文链接：https://blog.csdn.net/qq_46906413/article/details/121732000

版权

机器学习专栏收录该内容

10 篇文章 19 订阅

订阅专栏

当特征值为两个的时候，则是一个二维平面（横纵坐标分别表示一个特征值）。当出现两个以上的特征值时，特征值越多，坐标的维数越多，那么模型建立起来就比较繁琐，而且多特征有时还会存在多重共线性问题，即相互之间具有关联关系，导致解空间不稳定，模型泛化能力弱，过多特征也会妨碍模型学习规律。因此，当特征值比较多时我们通常可以采用降维的方式减少维数，使模型简单准确，简单来说就是指可以用更少维度的特征替代更高维度的特征，同时保留有用的信息，把高维空间上的多个特征组合成少数几个无关的主成分，同时包含原数据中大部分的变异信息，简单的来说就是在二维坐标(x,y)内均匀分布在一条回归线上下，在三维坐标内(x,y,z)还是按照近似二维平面分布，第三个维度(z)对回归拟合的影响非常小，故可以删除这个特征向量(z),用二维(x,y)来反映原始数据，除此之外还有其他的方法进行降维，例如缺失值比率、低方差滤波、高相关滤波、随机森林/组合树等
注：变异信息就用方差来衡量，第一主成分是高维空间上的一个向量，所有的点沿着这条线波动最大，或者说所有的点到直线的距离的平方和最小。如下图所示，所有的点沿着绿色直线的波动最大，它就代表着第一主成分向量。

当存在两个或多个特征时，可以使用多元线性回归方法来实现拟合。多元线性回归是线性回归的一种扩展，可以用于建立多个特征与目标变量之间的线性关系。

以下是使用多元线性回归进行拟合的一般步骤：

数据准备：收集并整理包含多个特征和目标变量的数据集。确保数据集包含足够数量的样本，并进行适当的数据清洗和预处理（如去除缺失值、特征缩放等）。
特征选择：根据问题的背景和数据集的特点，选择合适的特征进行建模。考虑到多个特征之间可能存在相关性，可以使用相关性分析或特征选择方法（如前向选择、后向选择、正向选择等）来确定最相关的特征。
模型建立：使用多元线性回归模型建立特征与目标变量的线性关系。模型的一般形式为：y = β₀ + β₁x₁ + β₂x₂ + … + βₙxₙ，其中y是目标变量，x₁、x₂、…、xₙ是特征，β₀、β₁、β₂、…、βₙ是模型的系数。
模型训练：使用训练数据对模型进行训练，即估计模型的系数。这可以通过最小化目标变量与模型预测值之间的误差（如最小二乘法）来实现。
模型评估：使用测试数据对训练好的模型进行评估。可以使用各种指标（如均方误差、决定系数R²等）来评估模型的拟合效果。
预测：使用训练好的模型对新的输入数据进行预测。

对于具体实现，可以使用各种机器学习库或工具进行多元线性回归建模和拟合，如Scikit-learn、Statsmodels等。这些库提供了方便的接口和函数，用于处理数据、建立模型和进行预测。

以下是一个使用Scikit-learn库进行多元线性回归拟合的示例代码：

from sklearn.linear_model import LinearRegression
import numpy as np

# 准备数据
X = np.array([[1, 2], [2, 4], [3, 6], [4, 8]])  # 特征矩阵
y = np.array([3, 6, 9, 12])  # 目标变量

# 创建线性回归模型
model = LinearRegression()

# 模型训练
model.fit(X, y)

# 打印模型系数
print("模型系数：", model.coef_)

# 进行预测
X_test = np.array([[5, 10], [6, 12]])
y_pred = model.predict(X_test)
print("预测结果：", y_pred)