XY的模式识别学习笔记-最小平方误差准则分类 MSE

夏蕈

已于 2022-07-08 23:00:31 修改

阅读量3.2k

点赞数 2

文章标签：最小平方误差线性分类器梯度下降 Widrow-Hoff算法 Matlab实现

于 2020-10-16 16:34:24 首次发布

本文链接：https://blog.csdn.net/qq_43797757/article/details/109086808

版权

最小平方误差准则分类 MSE

- 最小平方误差准则分类定义
- 简单例题及Matlab代码实现

大三数学狗，记录一下学习过程。

最小平方误差准则分类定义

对线性不可分的样本集，不等式组 $a^{T}y_{i}>0,i=1,...N$ 不可能同时满足，希望找到一个权向量 $a^{*}$ ，使得错分样本尽可能少。可以通过解线形不等式组以最小化错分样本数，通常用探索算法求解。
将不等式组转化为
$a^{T}y_{i}=b_{i}>0,i=1,...N\text{,}$
矩阵形式为 $Y a = b$ ，其中，
搞不懂CSDN的版本，这个公式显示不出来，只能直接上图片
其中， $\hat{d}$ 是增广的样本向量的维数， $\hat{d} =d+1$ 。
若 $Y$ 是非奇异的，则
$a^{*}=Y^{-1}b\text{.}$
由于 $Y$ 不是方阵，通常样本数大于维数，方程没有精确解。定义方程组的误差为
$e=Ya-b\text{,}$
最优权向量 $a^{*}$ 应该使得误差向量的平方最小，即求解方程组的最小平方误差解：
$a^{*}=\underset{a}{argmin} J_{s}(a)=\left \| Ya-b \right \|^{2}=\sum_{i=1}^{n} (a^{T}y_{i}-b{i})^{2}\text{.}$
$J_{s}(\alpha)$ 在极值处，对 $a$ 的梯度应为0，则
又抽风了，没办法，上图片

$Y^{+}=(Y^{T}Y)^{-1}Y^{T}$ 是长方矩阵[Y]的伪逆。
实际中常用梯度下降法来求极小值，先任意选择初始的权向量 $\alpha(0)$ ，置 $t = 0$ ，
再按照梯度下降的方向迭代更新权向量
$\alpha(t+1)=\alpha(t)-\rho_{t}Y^{T}(Y\alpha-b)\text{,}$
直到满足 $\bigtriangledown J_{s}(\alpha)\le \xi$ 或者 $\left \| \alpha(t+1)-\alpha(t) \right \| \le \xi$ 时为止。 $\xi$ 是事先确定的误差灵敏度。
还有一种是单样本修正法（ $W i d r o w - H o f f$ 算法）来调整权向量，
$\alpha(t+1)=\alpha(t)+\rho_{t}(b_{k}-\alpha(t)^{T}y_{k})y_{k}\text{,}$
$y_{k}$ 是使得 $\alpha(t)^{T}y_{k} \ne b_{k}$ 的样本。
补充：批量样本修正法中，样本是分批或全部检查后，修正权向量；
单样本修正法将样本集视为不断重复出现的序列，逐个样本检查，修正权向量。

简单例题及Matlab代码实现

产生两个具有200个二维的数据集，均值分别为(2,1), (-2,1), 协方差矩阵均为（2,1;1,2）。利用最小平方误差判别方法设计线性分类器，若使用迭代方法，使用2个不同的初始化向量，比较结果。
Matlab代码如下：

mu1=[2,1];mu2=[-2,1];
sigma1=[2,1;1,2];sigma2=[2,1;1,2];
f1=mvnrnd(mu1,sigma1,200);f2=mvnrnd(mu2,sigma2,200);
figure(1);
plot(f1(:,1),f1(:,2),'*',f2(:,1),f2(:,2),'o');
hold on;
%绘图
Y=[f1,ones(200,1);f2,ones(200,1)]';%扩维
b1=ones(200,1);%w1类期望输出1
b2=-ones(200,1);%w2类期望输出-1，对第二类样本取反向向量
b=[b1;b2];
a=inv(Y*Y')*Y*b;%权向量估计值
Y=linspace(-5,5,200);%选点%取点作图
y=(-a(1)/a(2))*Y-a(3)/a(2);%x*a1+y*a2+a3=0
plot(Y,y,'r');

图1 Matlab分类图像由于使用了随机的函数，所以做出的图应该会和我给出的不同。并且有时候可能出现无法求逆的情况。
我只写了 $M S E$ 方法， $Y^{T}Y$ 是个方阵，一般非奇异。当矩阵无法求逆时，就需要使用迭代求解方式，即上述提出的批量样本修正法和单样本修正法（ $W i d r o w - H o f f$ 算法）。
过了很久，学了 $L a T e X$ ，但是迭代代码完全忘记了，有缘再说吧（咕咕）