Python数据分析一条龙(菜鸟上手项目记录--回归分析阶段以及项目总回顾)

本文链接：https://blog.csdn.net/qq_41819729/article/details/106951760

4. 回归分析阶段

因为sklearn封装了大量的函数供我们调用，所以没有特别复杂的逻辑，talk is cheap, show me the code

代码实现

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn import metrics


def main():
    # 加载数据
    data = np.loadtxt('NormalizeData.csv', delimiter=',', dtype=str, encoding='utf-8-sig')
    # 取出所有样本
    X = data[1:, 1:7].astype(np.float)
    # 取出所有样本的标签值
    Y = data[1:, 7].astype(np.float).reshape(-1, 1)

    # 对样本值进行标准化
    scaler_X = StandardScaler().fit(X)
    X = scaler_X.transform(X)

    # 对样本值标签进行标准化
    scaler_Y = StandardScaler().fit(Y)
    Y = scaler_Y.transform(Y)
    # 实例化线性回归模型
    model = LinearRegression()
    RMSE_list = []
    coef = []
    intercept = []
    for i in range(10):
        X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=666)  # 划分数据集，其中测试集占30%

        model.fit(X_train, Y_train)  # 利用训练样本和训练标签进行模型训练

        predict = model.predict(X_test)  # 根据测试样本做出预测

        coef.append(model.coef_)  # 求模型的斜率
        intercept.append(model.intercept_)  # 求模型的截距

        RMSE = np.sqrt(metrics.mean_squared_error(Y_test, predict))  # 该值越小越好
        RMSE_list.append(RMSE)

    idex = RMSE_list.index(min(RMSE_list))
    RMSE_min = min(RMSE_list)
    print('最小的RMSE:', RMSE_min)
    coef1 = coef[idex]
    print('RMSE最小对应的模型斜率：', coef1)
    intercept1 = intercept[idex]
    print('RMSE最小对应的模型截距：', intercept1)


if __name__ == '__main__':
    main()

运行结果：
在这里插入图片描述