在模式分类中线性相关和线性可分的理解
super.raymond.lu[at]gmail[dot]com
在看线性分类的时候,考虑了半天的线性可分问题,终于想清楚了,赶紧做一下记录,方便自己以后回忆,也方便他人学习。
有n个变量X1,X2,X3,…,Xn,我们说这n个变量线性相关,当且仅当存在n个常量C1,C2,C3,…,Cn,和常量B,使得:
C1×X1+ C2×X2+ C3×X3+ … + Cn×Xn + B = 0.
当n=2时,我们有方程C1×X1+ C2×X2+B=0,我们用x表示X1,y表示X2,a表示C1/C2,b表示B/C2,原方程可表示为y=ax+b。很容易想到,该方程表示R2欧几里得空间中的一条直线,该直线的斜率(导数)是a,截距是b。此时我们可以说x和y的关系是线性的关系,即他们是线性相关的。
当n=2时,通过几何上直观的图示,两个变量线性相关很容易理解。而当n>2时,就没那么好理解了。比如当n=3时,为什么方程C1×X1+ C2×X2+ C3×X3+B=0能表示一个3维空间上的平面:
为什么它刚好是一个平面、而不是一个曲面或者一条曲线呢?当n>3时就更加让我感到更难理解了。
设z是关于变量x、y的函数,a、b、c是常量,有z=a×x+ b×y+ c,可以看出,该方程和上一段中n=3时的线性方程是一样的。此时z关于变量x,y的偏导数分别是a和b,二次偏导数都为0;x关于变量y和z的偏导数也是常量;y关于变量x和z的偏导数也是常量。表明变量x,y,z在函数中的变化率是一个常数,变量x,y,z都是以一个固定的速率在变化(和变量本身无关),此时,这个方程表示的图象肯定是(x,y,z)空间中的一个平面。
而如果方程中某个变量的偏导数不是常量(而是一个带变量的函数),即该变量在该函数中的变化率随着变量的变化而变化,此时该方程表示的图像便是一个曲面。此时我们可以得到更为一般的描述:
在带有n个变量的方程中,如果方程中所有变量的偏导数都是常数,则这些变量线性相关,这些变量组成n维空间中的一个超平面;如果存在一个变量的偏导数不是常量,则这些变量线性无关,这些变量组成n维空间中的一个曲面。
此时我们可以得到:
n元一次方程都是线性相关的,n元m次方程(m>1)都不是线性相关的。
到这里线性可分已经很容易理解了:
如果样本类A、B能被一个超平面划分,则说明样本类A、B是线性可分的。
在线性分类中,这个超平面通常由一个包含n个变量的函数来表示,而且这个函数必是n元一次函数。