1、python中计算回归系数代码如下:
def loadDataSet(fileName): #general function to parse tab -delimited floats
numFeat = len(open(fileName).readline().split('\t')) - 1 #get number of fields
dataMat = []; labelMat = []
fr = open(fileName)
for line in fr.readlines():
lineArr =[]
curLine = line.strip().split('\t')
for i in range(numFeat):
lineArr.append(float(curLine[i]))
dataMat.append(lineArr)
labelMat.append(float(curLine[-1]))
return dataMat,labelMat
此代码为读取数据,其中最后一列为目标值y,返回x1,x2....xn和相对应的y1,y2....yn,下面的代码是计算回归系数ws
def standRegres(xArr,yArr):
xMat = mat(xArr); yMat = mat(yArr).T
xTx = xMat.T*xMat
if linalg.det(xTx) == 0.0:
print "This matrix is singular, cannot do inverse"
return
ws = xTx.I * (xMat.T*yMat)
return ws
输出结果为
>>> import regression
>>> dataMat,labelMat=loadDataSet('C:\\Users\\WM\\Desktop\\python\\ex0.txt')
>>> datamat[0:2]
[[1.0, 0.067732], [1.0, 0.42781]]
>>> ws=regression.standRegres(dataMat,labelMat)
>>> ws
matrix([[ 3.00774324],
[ 1.69532264]])
datamat的第一列数为X0,第二列数分别为x1,x2即一个2*2的datamat与2*1的ws相乘得到两行一列的值分别为y1',y2'
绘制数据集与最佳拟合直线代码:
>>> xMat=mat(dataMat)
>>> yMat=mat(labelMat)
>>> yHat=xMat*ws
>>> import matplotlib.pyplot as plt
>>> fig=plt.figure()
>>> ax=fig.add_subplot(111)
>>> ax.scatter(xMat[:,1].flatten().A[0],yMat.T[:,0].flatten().A[0],marker = 'o', color = 'r')
<matplotlib.collections.PathCollection object at 0x085E2BF0>
>>> xcopy=xMat.copy()
>>> xcopy.sort(0)
>>> yHat=xcopy*ws
>>> ax.plot(xcopy[:,1],yHat)
[<matplotlib.lines.Line2D object at 0x085F2130>]
>>> plt.show()
其中xcopy为n*2的矩阵;结果如下:
几乎任意一个数据集都可以使用上面的模型,计算回归系数,那么如何判断模型的好坏呢?就是计算预测值yhat和实际y值的匹配程度,即计算预测值和真实值,这两个序列的相关系数;
在python中,numpy库提供了计算相关系数的命令corrcoef(y_estimate,y_acture)来预测真实值和预测值之间的相关性
>>> yHat=xMat*ws
>>> corrcoef(yHat.T,yMat)
array([[ 1. , 0.98647356],
[ 0.98647356, 1. ]])
>>>
可以看出对角线系数为1,因为yMat和自己完全匹配,而yHat和yMat相关系数为0.98