机器学习 —— 基础整理(六)线性判别函数:感知器、松弛算法、Ho-Kashyap算法...

      这篇总结继续复习分类问题。本文简单整理了以下内容:

(一)线性判别函数与广义线性判别函数

(二)感知器

(三)松弛算法

(四)Ho-Kashyap算法

      闲话:本篇是本系列[机器学习基础整理]在timeline上最新的,但实际上还有(七)、(八)都发布的比这个早,因为这个系列的博客是之前早就写好的,不过会抽空在后台修改,感觉自己看不出错误(当然因为水平有限肯定还是会有些错误)了之后再发出来。后面还有SVM、聚类、tree-based和boosting,但现在的情况是前八篇结束后,本系列无限期停更……

(一)线性判别函数与广义线性判别函数

      一、线性判别函数

      现假设判别函数(Discriminant function)的参数形式已知,用训练的方法直接根据样本估计判别函数的参数。例如,线性判别函数的形式为:

$$g(\textbf x)=\textbf w^{\top}\textbf x+w_0$$

$\textbf x\in \mathbb R^d$ 是给定的样本,$\textbf w=(w_1,w_2,\cdots,w_d)$ 是权重向量,$w_0$ 是偏置。对于多类分类问题,如果有 $c$ 个类,那么有 $c$ 个判别函数,将样本的类别判定为各判别函数取值最大的一个(实际上这是一种one-vs-all的方式,因为一个判别函数只可以解决二类的分类问题。下面会简单介绍)。

      二分类问题的线性判别函数

      如果是二分类问题,则可以只有一个判别函数,当 $g(\textbf x)>0$ 时判为正类,$g(\textbf x)<0$ 时判为负类,$g(\textbf x)=0$ 时任意。因此,$g(\textbf x)=0$ 就是决策面,对于线性判别函数来说,这是一个超平面(hyperplane,直线的高维推广)。对于一组来源于两类的样本来说,如果存在一个超平面可以将它们完全正确地分开,则称它们是线性可分的。

      就这个描述来说,之前总结过的二项Logistic回归模型(如果只考虑线性决策面)和这里的描述是一致的,本质上都是需要学习出 $\textbf w$ 、$w_0$ ,二项Logistic回归模型还更进一步,将判别函数的值通过logistic函数 $\sigma(\cdot)$ 映射到了 $(0,1)$ 区间,进而给出了样本属于正类的概率。

      根据几何关系,对于任一样本 $\textbf x$ 来说,设它到决策面的投影点为 $\textbf x_p$ ,到决策面的距离为 $r$ (有正负,如果大于零则表示样本属于正类,处在决策面的正侧),那么如下关系成立:

$$\textbf x=\textbf x_p+r\frac{\textbf w}{||\textbf w||}$$

由于 $g(\textbf x_p)=0$ ,所以可得到 $r=g(\textbf x)/||\textbf w||$ 。如果决策面过原点,就表明 $w_0=0$ (原点到决策面的距离为 $w_0/||\textbf w||$ ),这时称判别函数是齐次(homogeneous)的。

图片来源:[1]

      one-vs-rest

      这里多提一句,如果是二分类器想用于多分类问题( $c$ 类),一般采用的策略是 one-vs-all(one-vs-rest),就是说训练 $c$ 个二分类器,其中分类器 $i$ 给出样本属于 $i$ 类的后验概率( $i=1,2,\cdots, c$ ),从而将样本的类别判定为后验概率最大的那个类。

      二、广义线性判别函数

      既然可以有线性判别函数,那么同理可以有二次判别函数(quadratic),其决策面是超二次曲面;进一步可以有多项式判别函数(polynomial)。所谓广义线性判别函数(generalized linear),就是指

$$g(\textbf x)=\sum_{i=1}^{\hat d}a_iy_i(\textbf x)=\textbf a^{\top}\textbf y$$

      这里 $\textbf y=(y_1(\textbf x),y_2(\textbf x),\cdots,y_{\hat d}(\textbf x))^{\top}\in \mathbb R^{\hat d}$ ,将 $\textbf x$ 映射到 $\hat d$ 维空间。齐次的形式标明了该判别函数所决定的决策面通过新空间的原点,新空间中的任一点到决策面的距离为 $\textbf a^{\top}\textbf y/||\textbf a||$ (根据上面 $r$ 的表达式可类似得到)。如果 $\hat d$ 足够大,那么 $g(\textbf x)$ 可以逼近任意判别函数,但是如果新空间的维数远高于原始空间的维数则会带来维数灾难(因为随着维数增多,需要的样本量指数级增长,之前的总结中提到过)。

      举个例子:设一维空间下的样本,希望 $x<-1$ 或 $x>0.5$ 为正类,那么可以得到符合要求的判别函数为 $g(x)=(x-0.5)(x+1)=-0.5+0.5x+x^2$ ,所以这里就将一维样本映射到了三维空间:$\textbf y=(y_1,y_2,y_3)^{\top}=(1,x,x^2)^{\top}$ 。从图里可以看出,映射后的概率密度其实是退化的,在曲线上无穷大,曲线外为0,这是映射到高维空间时的一个普遍问题。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值