本博客是机器学习实战的读书笔记......
数据挖掘十大算法:C4.5决策树 k-means 支持向量机SVM Apriori 最大期望法EM PageRank算法 AdaBoot算法 K-邻近算法(KNN)
朴素贝叶斯算法NB 分类回归树(CART算法)
k-邻近算法
首先,其最终是选择频率最高的类别作为当前点的预测分类,属于监督式学习....
- 计算数据集中的点与当前点的距离
- 按照点距离递增次序..排序
- 选取与当前距离最小的K个点
- 确定当前K个点所对应类别出现的概率
- 返回前K个点出现的频率最高的类别作为当前点的预测分类..
k-临近算法是分类算法里面最简单有效的算法,k-近邻算法必须保存全部的数据集,需要大量的存储空间,也无法得知平均实例样本和典型实例样本具有什么特征..