机器学习18-局部加权线性回归

最新推荐文章于 2024-05-15 10:31:05 发布

功夫猫熊yeah

最新推荐文章于 2024-05-15 10:31:05 发布

阅读量365

点赞数

分类专栏：机器学习 ai

本文链接：https://blog.csdn.net/weixin_39031707/article/details/99625217

版权

机器学习同时被 2 个专栏收录

32 篇文章 1 订阅

订阅专栏

16 篇文章 1 订阅

订阅专栏

局部加权线性回归

1、回归和特性的关系

回头来看知识点二，左图的拟合效果为underfitting（欠拟合），数据中的明显的结构关系没有被模型所捕获。右图的拟合效果为overfitting（过拟合），这种模型只是用于特定的数据，预测效果不好。中图的效果最好，那如何选择特征，使得模型的效果最好？有些数据集可能涉及到成千上万个特征，如同知识点二，挨个试一试的方式显然是不可能的。

从知识点二可以看出来，特征的选择对学习算法的性能至关重要，那有没有自动选择特征集的算法，或者是让特征的选择对结果影响不那么大？这就需要使用Locally Weighted linear Regression (LWR)，这个算法对特征集要求不是非常的严格。

2、局部加权线性回归(Locally
weighted linear regression)

在线性回归中，对于给定的训练集，用一个线性表达式来拟合所有数据，当训练集中输入变量和目标变量之间的确存在线性关系时，通常拟合的很好。但是如果没有明显的线性关系的话，可能就拟合不到好的效果了。比如下面坐标表示的情形，用一条直线来拟合图上的点显然不是很合适，这时候出现了欠拟合（underfitting）。
在这里插入图片描述

通常来说，对待这种情况，特征的选择可能会非常的重要，比如，对于上面的图，如果加特征：x的平方，或者sin(x)可能能够实现很好的拟合这些点。下面要介绍的局部加权线性回归，在保证有足够训练数据的前提下，能够使得特征的选择没有那么关键。

线性回归算法中，给定一个查询点x，要预测其对应的y，处理方法如下：

（1）选择合适的参数向量在这里插入图片描述
2）输出

与线性回归的区别显然是在第一步中多了一个权值w(i)。这个权值也就是该方法为什么叫做“加权“。这个权值怎么定义？又有什么用呢？

显然，在线性回归中，给定某个值，预测其对应的输出时，是通盘考虑所有的训练数据集。从上面的图我们看到，与其使用所有的点，可能还不如使用要预测的值的局部的几个训练数据点好。这是局部加权回归的思想，那要如何实现只考虑局部的训练数据呢？这就是w(i)的任务了。下面给出w(i)的一种数学定义方式，也可以使用其他的形式，只要能够实现相应的功能就行：

在这里插入图片描述

注意：exp，高等数学里以自然常数e为底的指数函数。

其中x是要预测的值，x(i)是第i个训练数据。分母中的符号t控制训练点随着距离查询点x衰减的速率。t越大，衰减的越慢，反之则越快。从上式可以很明显的看到随着x(i)距离x越远，权值w(i)越小。

局部加权线性回归的形式，见下图：
在这里插入图片描述

对上图的说明：假如给定x=10，要预测对应的y值，如果用线性拟合的方法，会拟合得到的是图中的绿线，那么对应的点将在该直线上，但如果是局部加权，也就是只考虑（主要）两条虚线之间，也就是圆圈之内的四个点来线性拟合，那么得到的是那条红线，对应的点在这条红线上相对的y值就是预测值，从直观上来看就可以认为这种预测会更准确。

功夫猫熊yeah

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习18-局部加权线性回归

局部加权线性回归1、回归和特性的关系回头来看知识点二，左图的拟合效果为underfitting（欠拟合），数据中的明显的结构关系没有被模型所捕获。右图的拟合效果为overfitting（过拟合），这种模型只是用于特定的数据，预测效果不好。中图的效果最好，那如何选择特征，使得模型的效果最好？有些数据集可能涉及到成千上万个特征，如同知识点二，挨个试一试的方式显然是不可能的。从知识点二可以看出来，...
复制链接

扫一扫