吴恩达机器学习（四）局部加权回归

最新推荐文章于 2024-01-23 22:07:11 发布

sddfsAv

最新推荐文章于 2024-01-23 22:07:11 发布

阅读量694

点赞数

分类专栏：机器学习文章标签：局部加权回归 Matlab 机器学习非线性回归

本文链接：https://blog.csdn.net/sddfsAv/article/details/88540724

版权

机器学习专栏收录该内容

7 篇文章 2 订阅

订阅专栏

吴恩达机器学习（四）局部加权回归

使用局部加权回归的原因
局部加权回归的原理
实例
讨论

使用局部加权回归的原因

在讲义中描述的是：makes the choice of features less critical（为了让特征的选择不是那么重要）
另外，局部加权回归可以用线性回归的方法得到一个非线性的拟合结果。这句话有点奇怪，但了解局部加权回归的原理就能明白其中的原因了。

局部加权回归的原理

相关参数定义：
$m$ :训练集数量
$x^{(i)}_1$ :第 $i$ 个训练样本的输入
$y^{(i)}$ :第 $i$ 个训练样本的输出
$h(x^{(j)}_t)$ :预测函数，对于一维的局部加权回归为： $h(x^{(j)}_t)=(x^{(j)}_t)^T\theta^{(j)}$ (请注意：我在这儿特地在 $\theta$ 上添加了一个上标 $j$ ，说明每一个 $x^{(j)}_t$ 对应一个 $\theta^{(j)}$ ，另外， $x^{(j)}_t$ 代表感兴趣的点，并不一定是某个样本)
局部加权回归与前面的线性回归相比，其目标函数发生了变化。
$J(\theta^{(i)}) = \frac{1}{2}\sum_{i=1}^mw^{(i)}(y^{(i)}-h(x^{(i)}))^2$
此处 $w^{(i)}$ 为非负权值项，其具体意义讲义中描述的是：if $w^{(i)}$ is large for a particular value of $i$ , then in picking $\theta$ , we’ll try hard to make $y(i) −θ^Tx(i))^2$ small. If w(i) is small, then the $y(i) −θ^Tx(i))^2$ error term will be pretty much ignored in the fit.（对应特定的样本 $i$ ，若 $w^{(i)}$ 较大，则表明该项在拟合中对 $\theta$ 影响更大，相反，若 $w^{(i)}$ 很小，则表明这项对 $\theta$ 影响很小，基本可以忽略不计）
$w^{(i)}$ 的常用计算方法为：
$w^{(i)}=exp(-\frac{(x^{(i)}-x)^2}{(2\tau^2)})$
由于讲义中没有推导推导算法的解析解，在此简单推导一下：

目标函数
将目标函数写为矩阵形式，式中变量的定义参见讲义。
$J(\theta) =\frac{1}{2}(\vec{y}-X\theta)^TW(\vec{y}-X\theta)$
求目标函数最小的 $\theta$
目标函数本质上是一个无约束的二次规划问题，首先求其对 $\theta$ 的梯度(注意 $W$ 为对角矩阵： $W=W^T$ )
$\nabla_\theta J(\theta) =\frac{1}{2}\nabla_\theta(\vec{y}^TW\vec{y}-\vec{y}^TWX\theta-\theta^TX^TW\vec{y}+\theta^TX^TWX\theta)\\=\frac{1}{2}\nabla_\theta(\theta^TX^TWX\theta-\vec{y}^TWX\theta-\theta^TX^TW\vec{y})\\=\frac{1}{2}\nabla_\theta tr(\theta^TX^TWX\theta-\vec{y}^TWX\theta-\theta^TX^TW\vec{y})\\=\frac{1}{2}\nabla_\theta tr(\theta^TX^TWX\theta-2\vec{y}^TWX\theta)\\=\frac{1}{2}\nabla_\theta (tr\theta^TX^TWX\theta-tr2\vec{y}^TWX\theta)\\=\frac{1}{2}(X^TW^TX\theta+X^TWX\theta-2X^TW\vec{y})\\=X^TWX\theta-X^TW\vec{y}$
上面的推导中用到的相关矩阵性质可参见讲义（在CSDN其他博主的文章里有下载链接）。
令 $\nabla_\theta J(\theta)=0$ 得到：
$\theta=(X^TWX)^{-1}X^TW\vec{y}$

实例

数据来源https://blog.csdn.net/weixin_43084928/article/details/82529596

%% 局部加权线性回归
% 作者：sddfsAv
% 日期：20190313
% Matlab版本：2018b
% 简介：吴恩达机器学习课程学习例子,数据集来源于https://blog.csdn.net/weixin_43084928/article/details/82529596
clear
clc

%% 导入原始数据
Data=csvread('Salary_Data.csv',1,0);    % 读取csv数据文件
scatter(Data(:,1),Data(:,2),40,'MarkerEdgeColor',[0 .5 .5],...
              'MarkerFaceColor',[0 .7 .7],...
              'LineWidth',1.5);         % 绘制散点图
title("Experience and Salary");         % 图表标题
xlabel("Experience(years)");            % x轴标题
ylabel("Salary(dollar)");               % y轴标题
hold on;
%% locally weighted linear regression
X=Data(:,1);
Y=Data(:,2);
tao=0.2;                       % bandwidth，带宽
X_target=1:0.02:10.5;
W=zeros(length(X),length(X));   % 初始化矩阵W
Theta=zeros(length(X_target),1);       % 建立一个Theta向量用于存储目标点对应的学习算法参数
for i=1:length(X_target)
    for j=1:length(Data(:,1))
        w=exp(-(X(j)-X_target(i))^2/(2*tao^2));
        W(j,j)=w;
    end
    theta=inv(X'*W*X)*X'*W*Y;
    Theta(i)=theta;
end
Y_hat=Theta.*X_target';
plot(X_target,Y_hat);

拟合结果：
在这里插入图片描述
注意：带宽过大会出现欠拟合，带宽过小会出现过拟合。
可以看到整个拟合曲线并不是线性的，这是因为针对每个感兴趣的点，采用局部加权回归得到的 $\theta$ 值是不一样的。