《机器学习实战》源码解析(七):回归

本系列以书中源码为主,稍作修改并添加注释,均实际运行可行。为免后来者踩坑,特此公开!欢迎打赏!
转载请注明出处!

#标准回归函数和数据导入函数
from numpy import *
import matplotlib.pyplot as plt
def loadDataSet(fileName):
    #计算特征值长度
    numFeat = len(open(fileName).readline().split('\t')) - 1
    dataMat = []; labelMat =[]#用于存储数据及其标签向量
    fr = open(fileName)
    for line in fr.readlines():#清洗数据
        lineArr = []
        curLine = line.strip().split('\t')
        for i in range(numFeat):
            lineArr.append(float(curLine[i]))
        dataMat.append(lineArr)#存储数据向量
        labelMat.append(float(curLine[-1]))#存储数据标签
    return dataMat,labelMat
#输入:清洗后的数据集,数据的真实标签
#输出:最佳回归系数矩阵.计算最佳拟合直线,按照公式w=(x.T*x).I*(x.T*y)
def standRegres(xArr,yArr):
    xMat = mat(xArr);yMat = mat(yArr).T#可计算化
    xTx = xMat.T*xMat
    #判断行列式是否为0,若为0则不能用此函数求解,退出此函数
    if linalg.det(xTx) == 0.0:
        print("This matrix is singular, cannot do inverse")
        return
    ws = xTx.I*(xMat.T*yMat)#最佳估计
    return ws
#测试以上代码
xArr,yArr=loadDataSet(r"选择你自己的数据集存储路径")
ws = standRegres(xArr,yArr)
ws
#绘制数据散点图和最佳拟合直线图
xMat = mat(xArr)#处理后的数据集
yMat = mat(yArr)#数据的真实标签
yHat = xMat*ws#数据的预测标签
fig = plt.figure()#建立画布
ax = fig.add_subplot(111)#将画布分为1行1列,在第一块上作图
ax.scatter(xMat[:,1].flatten().A[0],yMat.T[:,0].flatten().A[0])
xCopy=xMat.copy()#复制数据集
xCopy.sort(0)#对数据集按照升序排列?
yHat=xCopy*ws#计算预测值
ax.plot(xCopy[:,1],yHat)#画图
plt.show()#展示图
#计算相关系数
corrcoef(yHat.T,yMat)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值