对data的各个feature进行预处理
1. feature的选择:用相关性、基尼系数、信息熵、统计检验或是随机森林选取最为重要的特征变量
2. 如果需要,对一些特征变量进行scaling
3. 对数据进行变换:离散傅里叶变换或离散小波变换
4. 可以对数据进行降维处理,映射到低维度空间进行展示,观察数据形状,帮助选择聚类算法
降维的一些选择:
线性方法,PCA
非线性特征十分明显的数据集:流行学习(ISOMAP, LLE, MVU, Kernel PCA)
谱聚类:spectral clustering