《机器学习实战》--局部加权线性回归(LWR)

原创 2017年03月17日 19:53:07

一 概述

通常情况下的线性拟合不能很好地预测所有的值,因为它容易导致欠拟合(under fitting),比如数据集是
一个钟形的曲线。而多项式拟合能拟合所有数据,但是在预测新样本的时候又会变得很糟糕,因为它导致数据的
过拟合(overfitting),不符合数据真实的模型。

局部加权回归(LWR)是非参数学习方法。 首先参数学习方法是这样一种方法:在训练完成所有数据后得到一系列训练参数,然后根据训练参数来预测新样本的值,这时不再依赖之前的训练数据了,参数值是确定的。而非参数学习方法是这样一种算法:在预测新样本值时候每次都会重新训练数据得到新的参数值,也就是说每次预测新样本都会依赖训练数据集合,所以每次得到的参数值是不确定的。

具体的介绍在我之前的斯坦福机器学习笔记(一)中有详细介绍。链接为:http://blog.csdn.net/qq_30091945/article/details/61615501

这次运用的数据是来自《机器学习实战》这本书中第八章ex0文件中的数据。

二 代码

import numpy as np
import matplotlib.pyplot as plt

def LoadDataSet(file):
    """
    :param file:文件路径
    :return: 返回测试数据与标签
    """

    ftrain = open(file)
    trainingset = []
    labelset = []
    for line in ftrain.readlines():
        LineArr = line.strip().split('\t')
        trainingset.append([float(LineArr[0]),float(LineArr[1])])
        labelset.append(float(LineArr[2]))
    return trainingset, labelset

def LWRTest(traingxarr,xarr,yarr,k):
    Xmat = np.mat(xarr)
    Ymat = np.mat(yarr)
    # m是输入数据的个数,weights是单位矩阵
    m = np.shape(Xmat)[0]
    weights = np.eye(m)
    for i in range(m):
        diffmat = traingxarr - Xmat[i,:]
        weights[i,i] = np.exp(-(diffmat*diffmat.transpose())/(2.0*k**2))
    XT = Xmat.transpose()*(weights*Xmat)
    if np.linalg.det(XT) == 0:              #矩阵的行列式为0时不能进行之后的计算
        print('This Matrix is singular, cannot do inverse')
        return
    #theta是回归系数
    theta = XT.I*Xmat.transpose()*(weights*Ymat.transpose())
    ytest= traingxarr*theta
    return ytest


def LWR(trainingset,xarr,yarr,k):
    """
    :param trianingset:训练数据集
    :param xarr: 输入样本的横坐标
    :param yarr: 输入样本的纵坐标
    :param k: 带宽参数
    :return:返回预测值
    """
    # m是输入数据的个数,weights是单位矩阵
    m = np.shape(trainingset)[0]
    ytest = np.zeros(m)
    for i in range(m):
        ytest[i] = LWRTest(trainingset[i],xarr,yarr,k)
    return  ytest

def Show(xarr,yarr,ytest,k):
    """
    :param xarr: 样本数据特征值
    :param ytest: LWR回归得到的预测
    :param yarr: 样本数据标记值
    """
    xmat = np.mat(xarr)
    strInd = xmat[:, 1].argsort(0)
    xSort = xmat[strInd][:, 0, :]
    fig = plt.figure()
    ax = fig.add_subplot(1,1,1)
    ax.plot(xSort[:, 1], ytest[strInd])
    ax.scatter(xmat[:, 1].flatten().A[0], np.mat(yarr).T.flatten().A[0], s=2, c='red')
    title = "k = "
    title += str(k)
    ax.set_title(title)
    plt.savefig("D:\\Program Files (x86)\\机器学习\\斯坦福大学机器学习\\中文笔记\\Linear Regression\\LWR\\"+title+".jpg",dpi=400,bbox_inches='tight')
    plt.show()

def run_main():
    """
        这是主函数
    """
    file = 'D:\\Program Files (x86)\\机器学习\\机器学习实战\\源代码\\Ch08\\ex0.txt'
    xarr,yarr = LoadDataSet(file)
    k = [1.0,0.01,0.003]
    for i in k:
        ytest = LWR(xarr,xarr,yarr,i)
        Show(xarr,yarr,ytest,i)


if __name__ == '__main__':
    run_main()

下面是模型运行结果如下:
k = 1.0 (欠拟合)

这里写图片描述
k = 0.01(最佳拟合)
这里写图片描述
k = 0.003(过拟合)
这里写图片描述

版权声明:本文为博主原创文章,若需转载,请注明http://blog.csdn.net/qq_30091945

相关文章推荐

LWR 局部加权线性回归算法

http://blog.csdn.net/tianguokaka/article/details/14227187 分类: 统计学习方法2013-11-06 14:44 1649人阅读 ...

机器学习实战线性回归局部加权线性回归笔记

线性回归 用线性回归找到最佳拟合直线回归的目的是预测数值型数据,根据输入写出一个目标值的计算公式,这个公式就是回归方程(regression equation),变量前的系数(比如一元一次方程)称为...
  • LXYTSOS
  • LXYTSOS
  • 2015年10月18日 08:49
  • 5337

利用Logistic回归预测疝气病症的病马的死亡率

数据来源http://archive.ics.uci.edu/ml/machine-learning-databases/horse-colic处理过程由于该数据集存在30%的缺失,那么首先必须对数据...

RGB与HSI颜色空间互换函数(matlab)

RGB与HSI颜色空间互换函数(matlab) 2011-09-13 16:14:14 标签:RGB HSI 颜色空间 互换 休闲 近看了一本数字图像处理的原版书。其中提供了RG...

【机器学习】局部加权线性回归

我们现实生活中的很多数据不一定都能用线性模型描述。

机器学习算法实践:标准与局部加权线性回归

(点击上方蓝字,快速关注我们) 来源:伯乐在线 - iPytLab 如有好文章投稿,请点击 → 这里了解详情 前言 最近开始总结学习回归相关的东东了...

机器学习算法实践-标准与局部加权线性回归

專 欄 ❈PytLab,Python 中文社区专栏作者。主要从事科学计算与高性能计算领域的应用,主要语言为Python,C,C++。熟悉数值算法(最优化方法,蒙特卡洛算法等)与并行化算法...

机器学习—局部加权线性回归

局部线性回归(备忘)

(斯坦福机器学习课程笔记)局部加权线性回归练习

题目如下import numpy as np import random import matplotlib.pyplot as plt F64='float64' def gen_sin_dot_s...

机器学习中的局部加权线性回归

看下面三幅图,x 轴是房间面积,y 轴是房价。 左图是 y = θ0 + θ1x 拟合数据集的结果。可以看到数据并不贴靠在直线上,所以拟合并不好。 中图是 y = θ0 + θ1x + θ2x...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:《机器学习实战》--局部加权线性回归(LWR)
举报原因:
原因补充:

(最多只允许输入30个字)