KNN-K近邻分类法

最新推荐文章于 2024-07-24 16:21:37 发布

sam-X

最新推荐文章于 2024-07-24 16:21:37 发布

阅读量7.8k

点赞数 1

分类专栏：算法数学理论机器学习文章标签：算法分类 K近邻

本文链接：https://blog.csdn.net/u010945683/article/details/44746557

版权

机器学习同时被 3 个专栏收录

30 篇文章 3 订阅

订阅专栏

数学理论

23 篇文章 5 订阅

订阅专栏

算法

15 篇文章 0 订阅

订阅专栏

分类过程

预处理

为了提高分类模型的有效性及效率，需要对获取的数据进行预处理，预处理的过程包括清理数据、数据变换等。

数据清理

数据清理的过程包括去除噪声数据和重复数据，以及补充数据的缺失值。对于数据缺失的处理方法有:

常量代替法：所有数据中缺失的值都用同一个常量来填充·，比如“Error”。该方法最简单，但并不十分可靠。

平均值代替法：即采用数据集中某属性的平均值来代替该属性缺失的值。这种方法容易受到极端值的干扰。

众值代替法：使用同一属性中出现次数最多的值作为该属性缺失的值。可靠性较差，不过不受极端数据影响，同时能被用于非数值性的数据。

估算值代替法：采用回归算法预测缺失属性的可能值。

数据变换

数据变换是为了将数据转换成适合数据分析的形式，常使用规范化、离散化。常用规范化的方法有：

最大—最小规范化
min和max是数据集中某属性值的最小值和最大值。最大—最小规范化即是：

通过上式的运算就能将原先[min，max]线性映射到[new_min，new_max]。

Z—score规范化

n用来表示数据集中样本的数目，样本中第i个属性上的取值表示为{xi1,xi2,xi3,...,xin}，分别为{xi1,xi2,xi3,...,xin}的平均值和标准值，即：

规范化之后

特征提取或选择

特征提取

通常通过映射(或变换)的方法获取最有效的特征。特征提取方法可以分为线性和非线性两种。线性特征提取方法现一般使用主成分分析法(principle component analysis,PCA)，Fisher线性鉴别分析方法(fisher linier discriminant analysis,FLD)。PCA主要通过求解样本协方差矩阵的特征值和特征向量来找到方差最大的特征。FLD则主要保证样本在新空间有最大的类间距离和最小的类内距离，即是使样本在新空间有最佳的可分离性。线性自组织映射(self-organizing feature map,SOM)，则是利用低维空间的样本点来表示原始高维空间的样本点，使得低维空间的样本之间尽可能保持原始空间中的距离和相似性关系。

特征选择

      从全部特征中选择一个特征子集，其具体选择步骤是：
            1.从特征全集中产生出一个特征子集；
            2.用评价函数评价该特征子集；
            3.将评价结果与停止特征选择的评判标准进行比较，若达到要求就停止，否则继续以上步骤；
            4.验证所选择特征子集的有效性；
      步骤1中产生特征子集的算法有3种：全局搜索、启发式搜索以及随机搜索。广度搜索是典型的全局搜索，需要遍历所有特征子集，然后选择最优，但是如果数据集特征维数过高，其所需时间太长。因此就产生了后面的启发式搜索，其又分为序列前向搜索和序列后向搜索，在序列前向搜索中，每次都选择使评价函数达到最优的特征加入，但是这种搜索方法存在一定缺陷，就是其不能删除子集中的特征。因此就有了序列后向搜索，每次删除一个特征。随机搜索则包括模拟退火算法、粒子群算法和遗传算法等。