基本线性回归两种方法实现

摘要:

  分类是对离散性数据进行预测,而回归则是对连续性数据进行预测


找出最佳拟合直线

假设输入数据为X,回归系数放在向量W中,预测结果为Y = W^T *X,那么如何找到W呢 平方误差


def loadDataSet(filename):
    numFeat = len(open(filename).readline().split('\t')) - 1
    dataMat = [];labelMat=[]
    fr = open(filename)
    for line in fr.readlines():
        lineArr =[]
        curLine = line.strip().split('\t')
        for i in range(numFeat):
            lineArr.append(float(curLine[i]))
        dataMat.append(lineArr)
        labelMat.append(float(curLine[-1]))
    return dataMat,labelMat

def standRegres(xArr,yArr):
    xMat = mat(xArr);yMat = mat(yArr).T
    xTx = xMat.T*xMat
    if linalg.det(xTx)==0.0:
        print "this matrix is singular ,cannot do inverse"
        return
    ws = xTx.I*(xMat.T*yMat)
    return ws

至于为什么用A^T*A来求解,其实相当于最小二乘跟投影等价,可以看网易公开课线性代数的16节

获得的回归系数如下:

import regression
from numpy import*
xArr,yArr = regression.loadDataSet('ex0.txt')

ws = regression.standRegres(xArr,yArr)
print ws


获得回归系数以后就可以进行预测并绘制出拟合直线

xMat = mat(xArr)
yMat = mat(yArr)
yHat = xMat*ws
import matplotlib.pyplot as plt
fig = plt.figure()
ax = fig.add_subplot(111)
ax.scatter(xMat[:,1].flatten().A[0],yMat.T[:,0].flatten().A[0])

xCopy = xMat.copy()
xCopy.sort(0)
yHat = xCopy*ws
ax.plot(xCopy[:,1],yHat)
plt.show()


局部加权回归

我们当用线性回归的时候,可能出线的问题的是欠拟合,如果模型欠拟合无法获得好的效果。其中一个方法是局部加权线性回归(LWLR),给带预测点附近的每一个点
都赋予一定的权重,类似与KNN算法获得回归系数的w形式如下:

其中W可能是类似于对角矩阵的形式,X^T的维度并没有进行改变,而切可以使用核来对附近点进行权重赋值





这样改建了一个只含有对焦元素的权重矩阵w,若点x和x(i)越近那么w(i,i)越大
我们根据参数k和权重关系来得到如何控制K的值进行训练

其中K=0.5的时候大部分数据都要用来训练,而k=0.01的时候很少的局部点需要用来训练模型。下面用代码来进行实现

def lwlr(testPoint,xArr,yArr,k=1.0):
    xMat = mat(xArr);yMat = mat(yArr).T
    m = shape(xMat)[0]
    weights = mat(eye((m))) #对角矩阵
    for j in range(m):
        diffMat = testPoint - xMat[j,:]
        weights[j,j]  = exp(diffMat*diffMat.T)/(-2.0*k**2)
    xTx = xMat.T*(weights*xMat)
    if linalg.det(xTx)==0.0:
        print "this matrix is singular"
        return
    ws = xTx*(xMat.T*(weights*yMat))
    return testPoint*ws

def lwlrTest(testArr,xArr,yArr,k=1.0):
    m = shape(testArr)[0]
    yHat = zeros(m)
    for i in range(m):
        yHat[i] = lwlr(testArr[i],xArr,yArr,k)
    return yHat

下面可以看看预测的效果:
xArr,yArr = regression.loadDataSet('ex0.txt')
yHat = regression.lwlrTest(xArr,xArr,yArr,0.003)

为了直观获得效果我们仍然进行绘图,我们用matplotlib库进行。我们首先需要对xArr进行排序
xMat = mat(xArr)
arrInd = xMat[:,1].argsort(0)
xSort = xMat[arrInd][:,0,:]

import matplotlib.pyplot as plt
fig  = plt.figure()
ax = fig.add_subplot(111)
ax.plot(xSort[:,1],yHat[arrInd])
ax.scatter(xMat[:,1].flatten().A[0],mat(yArr).T.flatten().A[0],s=2,c='red')
plt.show()

获得效果如下:




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值