实现多元线性回归

最新推荐文章于 2024-03-03 11:32:28 发布

_卷心菜_

最新推荐文章于 2024-03-03 11:32:28 发布

阅读量275

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Thumb_/article/details/110249021

版权

机器学习专栏收录该内容

29 篇文章 4 订阅

订阅专栏

多元线性回归

由上节可知，多元线性回归的正规方程解为
在这里插入图片描述
对于

一共是 n+1 个数值

但是，实际上我们的样本一共只有 n 个维度，其中
在这里插入图片描述
每个系数都对应一个样本特征，从某种程度上来讲可以用于描述这些特征对于最终样本贡献的程度是怎样的，而截距和样本的特征是不相干的，只是一个偏移。

具体代码实现

调用scikit-learn中的数据

boston = datasets.load_boston()  #加载波士顿房价的数据

X = boston.data
y = boston.target

X = X[y < 50.0]
y = y[y < 50.0]

将数据集分为训练集和测试集

from machine_learning.playML.model_selection import train_test_split

X_train,y_train,X_test,y_test = train_test_split(X,y,seed=666)   #将数据集分为训练集和测试集

调用封装的 LinearRegression（封装代码见下）

from machine_learning.playML.LinearRegression import LinearRegression

reg = LinearRegression()
reg.fit_normal(X_train,y_train)

可得

reg.coef_    #系数
array([-1.20354261e-01,  3.64423279e-02, -3.61493155e-02,  5.12978140e-02,
       -1.15775825e+01,  3.42740062e+00, -2.32311760e-02, -1.19487594e+00,
        2.60101728e-01, -1.40219119e-02, -8.35430488e-01,  7.80472852e-03,
       -3.80923751e-01])216

reg.interception_    #截距
34.11739972322367

调用score()得预测指标结果

reg.score(X_test,y_test)   #预测的指标R^2值
0.8129794056212729

其中 LinearRegression.py 如下：

import numpy as np
from .metrics import r2_score

class LinearRegression:
    def __init__(self):
        """初始化Linear Regression模型"""
        self.coef_ = None              #初始值赋为None
        self.interception_ = None
        self._theta = None

    def fit_normal(self,X_train,y_train):
        """根据训练数据集X_train,y_train训练Linear Regression模型"""
        assert X_train.shape[0] == y_train.shape[0],\
            "the size of X_train must be equal to the size of y_train"
        X_b = np.hstack([np.ones((len(X_train),1)),X_train])   # X_b 为 在X_train前加一列1，其中1的行数与X_train相同
        self._theta = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y_train)   # 正规方程式

        self.interception_ = self._theta[0]  #截距 = _theta[0]
        self.coef_ = self._theta[1:]     #系数 = _theta对应的第一个元素到最后一个元素

        return self

    def predict(self,X_predict):
        """给定待预测数据集X_predict，返回表示X_predict的结果向量"""
        assert self.interception_ is not None and self.coef_ is not None,\
            "must fit before predict!"
        assert X_predict.shape[1] == len(self.coef_),\
            "the feature number of X_predict must be equal to X_train"   #预测的特征个数等于系数个数

        X_b = np.hstack([np.ones((len(X_predict),1)),X_predict])    #X_b 为 在X_predict前加一列1，其中1的行数与X_predict相同
        return X_b.dot(self._theta)    #预测结果

    def score(self,X_test,y_test):
        """根据测试数据集X_test和y_test确定当前模型的准确度"""

        y_predict = self.predict(X_test)
        return r2_score(y_test,y_predict)

    def __repr__(self):
        return "LinearRegression()"

r2_score()为：

def r2_score(y_true,y_predict):
    """计算y_true和y_predict之间的R Square"""

    return 1 - mean_squared_error(y_true,y_predict) / np.var(y_true)

_卷心菜_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
实现多元线性回归

标题由上节可知，多元线性回归的正规方程解为对于一共是 n+1 个数值但是，实际上我们的样本来说一共只有 n 个维度，其中每个系数都对应一个样本特征，从某种程度上来讲可以用于描述这些特征对于最终样本贡献的程度是怎样的，而截距和样本的特征是不相干的，只是一个偏移。...
复制链接

扫一扫

专栏目录