西瓜书-answer- 第十章降维与度量学习


http://blog.csdn.net/icefire_tyh/article/details/52243081
2.令err,err∗分别表示最近邻分类器与贝叶斯最优分类器的期望错误率，试证明：err∗≤err≤err∗(2−|Y||Y|−1∗err∗)。

由书226页可知 err=1−∑c∈YP2(c|x) 
err∗=1−maxc∈YP(c|x) 
设c∗=argmaxc∈YP(c|x) 
则err∗=1−P(c∗|x) 
左边： 
由于P(c∗|x)=maxc∈YP(c|x)
∑c∈YP2(c|x)可以看出P(c|x)的带权线性组合，总权值为1，结果肯定会小于他们的最大值P(c∗|x)
即：P(c∗|x)>∑c∈YP2(c|x)
所以err∗≤err
右边： 
err=1−∑c∈YP2(c|x)=1−P2(c∗|x)−∑c∈Y−c∗P2(c|x)=(2−err∗)err∗−∑c∈Y−c∗P2(c|x)
当剩余的P(c|x)全部相等时，∑c∈Y−c∗P2(c|x)取最小值，即Pc∈Y−c∗(c|x)=err∗|Y|−1
∑c∈Y−c∗P2(c|x)≥(err∗)2|Y|−1
所以err≤(2−err∗)err∗−(err∗)2|Y|−1=err∗(2−|Y||Y|−1∗err∗)
3.在对高维数据降维前应该先进性“中心化”，常见的方法是将协方差阵XXT转换为XHHTXT，其中H=I−1m11T，试讲述原因。

假设X是k*m矩阵，其中m是样本数，k是维度。 
中心化即使每个样本减去中心x¯，即X¯=X−x¯∗(1m∗1)T 
又x¯=1mX∗1m∗1 
所以X¯=X−1mX∗1m∗1∗(1m∗1)T=X(I−1m11T)=XH 
其中1是1m∗1。

4.在实践中，协方差阵XX^T的特征值分解常由中心化后的样本矩阵X的奇异值分解替代，试讲述原因。

假设样本阵X是k*m矩阵，其中m是样本数，k是维度。 
使用协方差阵求特征值分解时，协方差阵与属性的维度成平方比，这需要占用大量的空间。当属性维度与样本数差距巨大时，这种不必要的开销更加明显。 
对样本矩阵进行奇异值分解，很明显非0奇异值的个数m’，肯定不会大于样本数和属性维度较小的一个(一般情况k>>m)，这样使得求出来的特征向量阵为k∗m′(m′≤m)，显然当m<<k时，m′k的开销会远远小于k2。


5.降维中涉及的投影矩阵通常要求是正交的，试述正交非正交投影矩阵用于降维的优缺点。

当特征向量两两正交时，任何两种属性都是相互独立的，其中一个的取值不会影响另一个。但是属性并非全部不相关，比如书上说的，西瓜的体积和重量，显然是正相关的。这时如果两个属性的特征向量不成交会有更好的效果。

6.试使用matlab的PCA函数对人脸数据进行降维，并观察前20个特征向量对应的图像。

http://blog.csdn.net/icefire_tyh/article/details/52243639
7.试述核化线性降维与流型学习之间的联系与优缺点。

非线性核的线性降维与流型学习都属于非线性降维。 
核化线性降维有线性降维的优点，比如KPCA与保留了最主要的特征，计算方法简单，使用非线性核可以实现非线性降维。缺点一个是核化后的缺点，复杂度与样本总数成正比，当样本很多时复杂度会很高；另外由于PCA使用的正交空间，如果属性相关性比较大，会出现不好的结果。 
流型学习：流形在局部具有欧式空间的性质，能用欧氏距离来进行距离计算。它的优点就是把高维中不能直接计算的距离使用局部距离来累计表示。比如Isomap,它使用测地线距离来表示高维距离。缺点一是如果本的分布不均匀，导致设置的k近邻或e距离近邻中存在短路与断路的存在，不利于计算全局距离。二是并没有特别好的方法去计算新样本的低维坐标。

8.k近邻与e近邻图存在短路和断路问题会给Isomap造成困扰，设计一个来缓解。

短路是由于k与e设置过大造成的，断路是因为k与e太小或者样本分布问题造成的。 
比如5个远离其他样本，但他们5个靠的很近，导致5近邻时他们与其他所有样本距离无穷远而导致断路。 
这里设计一条规则来解决这个问题： 
假设每个点寻找到一个近邻，就连上一条边 
那么对每个点遍历寻找近邻的时候，至少要加入一条新的边。 
这样可以解决断路问题。至于新增加的边，就是该样本未连边的样本中离它最近的样本。

9.设计一个方法为新样本找到LLE降维后的低维坐标。

如书236的方法，为新样本x寻找它的近邻，设集合为Q 
通过最小化平方误差min|x−∑i∈Qwixi|2求出各近邻点的权值。 
把求出权值与近邻点在低维坐标线性组合求出新样本的坐标。 
z=∑i∈Qzwizi
10.试述如何确保度量学习产生的距离能满足距离度量四条基本性质。

要保证度量对称性与同一性，需要保证度量与|xi−xj|相关。 
假设度量为distM(xi,xj)=(xi−xj)TM(xi−xj)，M是各属性的相关阵。 
要保证非负性，使得M必须是非负定的，而且属性相关满足交换率，也就是说M是对称矩阵。 
所以M可以写成PPT，P是正交矩阵。 
distM(xi,xj)=(xi−xj)TM(xi−xj)=(PT(xi−xj))T(PT(xi−xj)) 
此时相当于将初始的x映射成了PTx，显然三角不等式 
|PT(xi−xk)|+|PT(xj−xk)|≥|PT(xi−xj)|恒成立 
当PTxk在PTxi和PTxj之间时等号成立。