回顾模式分类的途径
- 思路一:估计条件概率密度函数,然后利用贝叶斯公式求出后验概率进行决策。而概率密度函数的估计有参数估计和分参数估计两种方式。其中参数估计有最大似然估计和贝叶斯估计,非参数估计有Parzen窗估计和KNN估计。
- 思路二:直接用KNN算出后验概率即可进行决策
- 思路三:直接找到可用于分类的判别函数。
这篇文章,我们主要讨论思路三,直接通过数据确定线性判别函数的参数,进而分类决策。我们的基本想法是:
-
给定一个线性判别函数,并且函数的参数形式已知。
-
采用训练样本的方法来确定判别函数的参数。
-
通过我们的判别函数对新样本进行决策
从最简单的二分类问题入手
对于一个两类问题,已知样本空间中的n个d维数据及其对应的类别。类与类之间是线性可分的。现假设某一个别类的线性判别函数的基本形式为
g ( x ) = w T x + w 0 g(x)=w^Tx+w_0 g(x)=wTx+w0
然后利用样本数据对参数 w T w^T wT和偏置 ω 0 \omega_0 ω0进行训练。
训练的标准是
{ g ( x i ) > 0 , x i ∈ ω 1 g ( x i ) < 0 , x i ∈ ω 2 \begin{cases} g(x_i)>0 , \ \ x_i \in \omega_1 \\ g(x_i)<0, \ \ x_i \in \omega_2 \end{cases} {
g(xi)>0, xi∈ω1g(xi)<0, xi∈ω2
直观地理解是我们给x的每一个分量乘以一个权重系数,求和之后与阈值 ω 0 \omega_0 ω0进行比较,进行二值分类。
几何解释
可以从几何的角度给出更形象的解释,如图所示
平面g(x)=0为两类别的决策面H,将样本空间V分割成两部分,即第一类的决策域R_1和第二类的决策域R_2
显然,w和平面H正交。证明:若 x 1 , x 2 ∈ H x_1,x_2 \in H x1,x2∈H,则 w T x 1 + ω 0 = w T x 2 + ω 0 w^T x_1+\omega_0=w^Tx_2+\omega_0 wTx1+ω0=wTx2+ω0所以 w T ( x 1 − x 2 ) = 0 w^T(x_1-x_2)=0 wT(x1−x2)=0,即w与H面上任一个向量正交,因此,w与平面H正交
由上图可知
x = x p + r w ∣ ∣ w ∣ ∣ x=x_p+r\frac{w}{||w||} x=xp+r∣∣w∣∣w
其中,x_p是x在H上的投影向量,r是x到H的代数距离,其正负对应两个不同的决策域。
因为x_p在H上,因此
g ( x p ) = w T x p + ω 0 = 0 g(x_p)=w^Tx_p+\omega_0=0 g(xp)=wTxp+ω0=0
由以上两个式子可得
g ( x ) = w T x + ω 0 = r ∣ ∣ w ∣ ∣ g(x)=w^Tx+\omega_0=r||w|| g(x)=wTx+ω0=r∣∣w∣∣
显然,g(x)可以表示x到H的某种距离。而且原点到平面的距离为
r