把特征的维数变多,实例可能就变得很稀疏了,就越容易分类了
低维里分不了的在高维里可能就变成线性的了
高维里需要解的方程组成指数级增加(维数灾难)
方程越多,需要的数据就越多,就可能解不出来了
反正就是特征不能太多
分类性能与维数是一个先上升再下降的曲线
减维度:特征抽取,特征选择
怎么减呢?
1.选取一个准则,判据,错误概率单调
2.特征独立的时候具有可加性,独立性挺nb的
3.具有距离的某些特性
4.单调性,加入新的特征判据不减小
以上四个不一定同时满足
小总结:特征选择和降维,有个大体的画像即可
特征选择的流程:有四个主要的步骤
所有的局部最好聚合在一起不一定是全局最好的
只是记个思路,以后用到的时候再慢慢完善吧
可分性判据:基于距离的
怎么算类与类之间的距离?
基于概率
前面是特征的选择,接下来是特征的映射
把好多特征通过函数降维