2.5 Norm (范数)
我们一般用范数来完成向量到一个非复数的映射,最常见的Lp范数用来表示两个向量之间的距离。
欧氏距离(euclidean norm)在机器学习中最常用的,也叫做L2范数,即p=2. 平方L2范数也比较常用, 表示为
XTX。
对于向量中存在大量非零但接近零的元素的情况,为了更好的区分开0与接近0的非零数,我们用L1范数来衡量,即p=1. 它能很好的表示向量里非零与零的差距,每当有元素与0距离变大e,整个L1范数也会改变e.
另外一个机器学习中使用频繁的数是无穷大范数。书上给的定义是:
即用向量中的最大值绝对值来衡量一个向量。
然后提到另一个衡量矩阵大小的范数,Frobenius 范数。类似L2, 只不过用在了矩阵元素里。
2.6 一些特殊的矩阵与向量
对角阵(diagonal)只有对角线上的元素为非零。对角阵的求逆也很简单,对角的每个元素取倒数然后转置即可。与对角阵的相乘非常方便,相当于元素之间的相乘。
对称阵(symmetric)指转置等于矩阵本身的矩阵。例如表示距离的矩阵,对index的顺序并不在意。
元向量(unit vector)的L2范数为1. 相乘为0的两个向量正交。如果向量正交,且是元向量,则叫做标准正交。
正交矩阵的行向量互相标准正交,列向量互相标准正交。满足 XT=X-1
2.7 特征分解(egiendecomposition)
书中举了一个很好的例子来讲特征分解。对一个整数来说,例如10=2*5, 可以被因子代表成一组数据来表征10这个数的特点,同理矩阵也可以被一组向量和数值来表示,即特征向量和特征值。
即向量v乘以一个矩阵A,改变的只是向量的标量大小。v叫做特征向量,lamda叫做特征值。
矩阵A可以由它的若干个特征向量表示。把一个矩阵分解成特征向量和特征值有利于我们更好地理解一个矩阵的特点。任何的实对称矩阵都可以被分解为:
Q是由A的特征向量组成的正交矩阵,Λ是由特征值组成的对角阵。
当A的全部特征值都是正数,A叫做正定阵。当A的全部特征值都是非负数,A叫做半正定阵。
2.8 SVD (singular value decomposition)不确定怎么翻译。。。
SVD比特征分解更广泛,任何实矩阵都可以被SVD。不局限于A必须为方阵。
如果A为m*n的矩阵,U为m*m, D为m*n, V为n*n.