机器学习18-局部加权线性回归

局部加权线性回归

1、回归和特性的关系

回头来看知识点二,左图的拟合效果为underfitting(欠拟合),数据中的明显的结构关系没有被模型所捕获。右图的拟合效果为overfitting(过拟合),这种模型只是用于特定的数据,预测效果不好。中图的效果最好,那如何选择特征,使得模型的效果最好?有些数据集可能涉及到成千上万个特征,如同知识点二,挨个试一试的方式显然是不可能的。

从知识点二可以看出来,特征的选择对学习算法的性能至关重要,那有没有自动选择特征集的算法,或者是让特征的选择对结果影响不那么大?这就需要使用Locally Weighted linear Regression (LWR),这个算法对特征集要求不是非常的严格。

2、局部加权线性回归(Locally
weighted linear regression)

在线性回归中,对于给定的训练集,用一个线性表达式来拟合所有数据,当训练集中输入变量和目标变量之间的确存在线性关系时,通常拟合的很好。但是如果没有明显的线性关系的话,可能就拟合不到好的效果了。比如下面坐标表示的情形,用一条直线来拟合图上的点显然不是很合适,这时候出现了欠拟合(underfitting)。
在这里插入图片描述

通常来说,对待这种情况,特征的选择可能会非常的重要,比如,对于上面的图,如果加特征:x的平方,或者sin(x)可能能够实现很好的拟合这些点。下面要介绍的局部加权线性回归,在保证有足够训练数据的前提下,能够使得特征的选择没有那么关键。

线性回归算法中,给定一个查询点x,要预测其对应的y,处理方法如下:

(1)选择合适的参数向量在这里插入图片描述
2)输出在这里插入图片描述

与线性回归的区别显然是在第一步中多了一个权值w(i)。这个权值也就是该方法为什么叫做“加权“。这个权值怎么定义?又有什么用呢?

显然,在线性回归中,给定某个值,预测其对应的输出时,是通盘考虑所有的训练数据集。从上面的图我们看到,与其使用所有的点,可能还不如使用要预测的值的局部的几个训练数据点好。这是局部加权回归的思想,那要如何实现只考虑局部的训练数据呢?这就是w(i)的任务了。下面给出w(i)的一种数学定义方式,也可以使用其他的形式,只要能够实现相应的功能就行:

在这里插入图片描述

注意:exp,高等数学里以自然常数e为底的指数函数。

其中x是要预测的值,x(i)是第i个训练数据。分母中的符号t控制训练点随着距离查询点x衰减的速率。t越大,衰减的越慢,反之则越快。从上式可以很明显的看到随着x(i)距离x越远,权值w(i)越小。

局部加权线性回归的形式,见下图:
在这里插入图片描述

对上图的说明:假如给定x=10,要预测对应的y值,如果用线性拟合的方法,会拟合得到的是图中的绿线,那么对应的点将在该直线上,但如果是局部加权,也就是只考虑(主要)两条虚线之间,也就是圆圈之内的四个点来线性拟合,那么得到的是那条红线,对应的点在这条红线上相对的y值就是预测值,从直观上来看就可以认为这种预测会更准确。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值