一个模式识别问题的基本步骤
1、问题的提出与定义
把一个实际的问题抽象成一个模式识别问题。
2、数据获取和预处理
获取的数据要与分类目标间存在一定的依赖关系(函数关系)。
预处理一般有两种情况:1、是使数据的质量更好,比如:去噪、图像增强等;2、样本集的预处理,比如:剔除空值、类别的合并或分裂、缩放等。
3、特征提取和选择
指在已经得到数据样本之后如何使用数学的办法对数据进行必要的变换和选择,使所得的特征更易于分类。
-
特征选择:遗传算法
-
数据集的无监督变换(特征变换):创建数据新的表示算法。一个常见的应用是降维,降维的一个常见应用是可视化。
-
PCA:高维数据可视化
-
非负矩阵分解(NMF):提取有用的特征
-
流形学习:1、t-SNE:可视化,探索性数据分析很有用;
2、Isomap:降维,可视化
3、LLE:降维,可视化
-