机器学习——线性回归模型

目录

一、算法思想

二、代码实现


一、算法思想

线性回归模型的训练和预测,并包含了数据预处理、损失函数计算、梯度下降优化等步骤。以下是算法的主要步骤:
1. 数据加载与预处理(`load_data`函数):

  • 从sklearn.datasets中加载波士顿房价数据集。
  • 将数据集的特征和目标变量分别保存为特征矩阵`X`和目标向量`y`。

2. 数据标准化 (`normalize`函数):

  • 对特征矩阵`X`进行标准化处理,即减去每个特征的均值并除以标准差,以使数据适合梯度下降算法。

3. 添加偏置值 (`addBais`函数):

  • 在特征矩阵`X`中添加一列偏置值(全为1的列),这是因为线性回归模型包含一个偏置项(截距项)。

4. 计算方差(损失函数)(`calculate_MES`函数):

  • 定义均方误差(Mean Squared Error, MSE)作为损失函数,用于评估模型预测值与真实值之间的差异。

5. 训练过程(`train`函数):

  • 使用梯度下降算法训练模型,通过多次迭代更新模型的权重和偏置,以最小化损失函数。
  • 在每次迭代中,计算预测值`y_pred`,然后根据预测值和真实值`y`计算损失。
  • 计算权重和偏置的梯度,并使用学习率`lr`来更新权重和偏置。
  • 将每次迭代的损失保存到列表`losses`中,以便后续可视化。

6. 预测(`predict`函数):

  • 使用训练得到的权重和偏置来计算给定特征矩阵`X`的预测值`y_pred`。

7. 可视化预测结果(`plot_predictions`函数):

  • 将模型的预测结果与真实值进行比较,并通过散点图展示。
  • 绘制最佳拟合线,展示模型的预测趋势。

8. 可视化训练过程(`plot_training_process`函数):

  • 将训练过程中的损失函数值绘制成折线图,以观察模型在训练过程中的表现和收敛情况。

        在代码的最后,通过调用这些函数来执行整个流程:加载数据、数据标准化、添加偏置值、训练模型、预测、以及可视化训练过程和预测结果

二、代码实现

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 导入波士顿房价数据集
from sklearn.datasets import load_boston
import warnings

warnings.filterwarnings('ignore', category=FutureWarning, module='sklearn')
warnings.filterwarnings('ignore', category=UserWarning)

# 数据加载以及预处理
def load_data():
    """
    :return: X 为特征矩阵,y真实价格的向量
    """
    boston = load_boston()
    # 加载房子的特征df feature_names为特征名字
    df = pd.DataFrame(data=boston.data, columns=boston.feature_names)
    # 添加价格数据
    df['price'] = boston.target
    # 构建特征矩阵X
    X = df.drop('price', axis=1).values
    # 真实价格y 向量
    y = df['price'].values

    return X, y


# 数据标准化
def normalize(X):
    # 计算每个特征的平均值
    mean = np.mean(X, axis=0)
    # 计算标准差
    std = np.std(X, axis=0)
    normalize_X = (X - mean) / std

    return normalize_X

# 添加偏执值
def addBais(X):
    # 构建偏执值向量  X.shape[0]为样本数量
    b = np.ones((X.shape[0], 1))
    X_with_bais = np.concatenate((b, X), axis=1)  # 将偏置项添加到第一列

    return X_with_bais


# 计算方差(损失函数)
def calculate_MES(y_pred, y):
    MSE = np.mean(((y - y_pred) ** 2))
    return MSE


# 训练过程
def train(X, y, lr=0.01, num_iterations=1000):
    # 样本数量 和 特征数量 + 1
    num_examples, num_features = X.shape
    # 权重向量,包括偏置项
    weights = np.zeros(num_features)
    bias = 0
    # 损失函数的列表
    losses = []

    for i in range(num_iterations):
        # 预测值
        y_pred = np.dot(X, weights) + bias

        # 计算权重梯度
        dw = 2 / num_examples * np.dot(X.T, y_pred - y)
        # 计算偏置梯度
        db = 2 / num_examples * np.sum(y_pred - y)

        # 梯度下降
        weights -= lr * dw
        bias -= lr * db

        # 计算损失
        loss = calculate_MES(y_pred, y)
        losses.append(loss)

    return weights, bias, losses


def predict(X, weights, bias):

    y_pred = np.dot(X, weights) + bias

    return y_pred


# 可视化预测结果
def plot_predictions(y_true, y_pred, weights, bias):
    df = pd.DataFrame({'True': y_true, 'Predicted': y_pred})
    sns.scatterplot(data=df, x='True', y='Predicted')

    # 绘制拟合直线
    x_line = np.linspace(min(y_true), max(y_true), num=100)
    y_line = weights[1] * x_line + bias


    plt.plot(x_line, y_line, color='r', label='Fitted Line')


    plt.xlabel('真实价格')
    plt.ylabel('预测价格')
    plt.title('True vs Predicted Prices with Fitted Line')
    plt.legend()
    plt.show()

# 可视化训练过程
def plot_training_process(losses):
    plt.plot(losses)
    plt.xlabel('Iteration')
    plt.ylabel('Mean Squared Error')
    plt.title('Training Process')
    plt.show()


if __name__ == '__main__':
    # 加载数据
    X, y = load_data()
    # 数据变准化
    normalize_X = normalize(X)
    # 添加偏执值
    X_with_bias = addBais(normalize_X)

    weights, bias, losses = train(X_with_bias, y)

    # 可视化训练过程
    plot_training_process(losses)

    # 预测
    y_pred = predict(X_with_bias, weights, bias)

    # 可视化结果
    plot_predictions(y, y_pred, weights[1:], bias)

  • 6
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
机器学习中,线性回归有多种模型可以使用。其中包括传统的线性回归模型和Lasso模型。 传统的线性回归模型是一种非常经典的方法,它通过拟合一个线性函数来预测因变量和自变量之间的关系。这个模型的数学原理可以通过最小二乘法来推导和求解。最小二乘法的目标是最小化预测值与实际观测值之间的残差平方和,从而得到最优的模型参数。\[1\] Lasso模型是一种用于处理多重共线性问题的算法。它通过对系数进行L1正则化来实现特征选择。L1正则化是指将系数的绝对值乘以一个正则化系数,使得一些特征的系数变为零,从而自动丢弃这些特征。Lasso模型在sklearn库中有相应的实现。\[2\] 线性回归是回归分析中最常用的方法之一,因为它比非线性模型更容易拟合,并且估计的统计特性也更容易确定。线性回归模型可以使用最小二乘法来求解,通过最小化残差平方和来得到最优的模型参数。\[3\] 综上所述,机器学习线性回归有多种模型可供选择,包括传统的线性回归模型和Lasso模型。这些模型可以通过最小二乘法和L1正则化来求解。 #### 引用[.reference_title] - *1* [机器学习——线性回归模型python代码实现](https://blog.csdn.net/qq_43045620/article/details/123079305)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [【机器学习线性回归】多元线性回归模型的搭建+Lasso回归的特征提取](https://blog.csdn.net/qq_43018832/article/details/128103389)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [机器学习常用模型-线性回归模型详解(简单易懂)](https://blog.csdn.net/weixin_43308610/article/details/123346498)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

依恋、阳光

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值