《机器学习实战》源码解析（七）：回归

最新推荐文章于 2021-09-09 14:58:57 发布

qq_45393426

最新推荐文章于 2021-09-09 14:58:57 发布

阅读量175

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_45393426/article/details/106149913

版权

本系列以书中源码为主，稍作修改并添加注释，均实际运行可行。为免后来者踩坑，特此公开！欢迎打赏！
转载请注明出处！

#标准回归函数和数据导入函数
from numpy import *
import matplotlib.pyplot as plt

def loadDataSet(fileName):
    #计算特征值长度
    numFeat = len(open(fileName).readline().split('\t')) - 1
    dataMat = []; labelMat =[]#用于存储数据及其标签向量
    fr = open(fileName)
    for line in fr.readlines():#清洗数据
        lineArr = []
        curLine = line.strip().split('\t')
        for i in range(numFeat):
            lineArr.append(float(curLine[i]))
        dataMat.append(lineArr)#存储数据向量
        labelMat.append(float(curLine[-1]))#存储数据标签
    return dataMat,labelMat

#输入：清洗后的数据集，数据的真实标签
#输出：最佳回归系数矩阵.计算最佳拟合直线，按照公式w=(x.T*x).I*(x.T*y)
def standRegres(xArr,yArr):
    xMat = mat(xArr);yMat = mat(yArr).T#可计算化
    xTx = xMat.T*xMat
    #判断行列式是否为0，若为0则不能用此函数求解，退出此函数
    if linalg.det(xTx) == 0.0:
        print("This matrix is singular, cannot do inverse")
        return
    ws = xTx.I*(xMat.T*yMat)#最佳估计
    return ws

#测试以上代码
xArr,yArr=loadDataSet(r"选择你自己的数据集存储路径")
ws = standRegres(xArr,yArr)
ws

#绘制数据散点图和最佳拟合直线图
xMat = mat(xArr)#处理后的数据集
yMat = mat(yArr)#数据的真实标签
yHat = xMat*ws#数据的预测标签
fig = plt.figure()#建立画布
ax = fig.add_subplot(111)#将画布分为1行1列，在第一块上作图
ax.scatter(xMat[:,1].flatten().A[0],yMat.T[:,0].flatten().A[0])
xCopy=xMat.copy()#复制数据集
xCopy.sort(0)#对数据集按照升序排列？
yHat=xCopy*ws#计算预测值
ax.plot(xCopy[:,1],yHat)#画图
plt.show()#展示图
#计算相关系数
corrcoef(yHat.T,yMat)