Spark——KNN代码及注解

最新推荐文章于 2021-05-18 16:13:19 发布

赵昕彧

最新推荐文章于 2021-05-18 16:13:19 发布

阅读量464

点赞数 1

分类专栏：机器学习文章标签：算法大数据 spark kneber

本文链接：https://blog.csdn.net/qq_40579464/article/details/116706281

版权

机器学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

一、简介

KNN及K邻近分类算法，通过搜索K个最相似的实例（邻居）的整个训练集并总结那些K个实例的输出变量，对新数据点进行预测。而寻找邻近点的距离公式一般使用欧式距离公式。

二、示例

1、数据

该数据是根据鸢尾花特征来区分种类的数据。前四个特征为花萼长度，花萼宽度，花瓣长度，花瓣宽度，最后一个为种类。
该数据分为训练数据与测试数据。

训练数据

5.1,3.5,1.4,0.2,setosa
4.9,3,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa
4.6,3.4,1.4,0.3,setosa
5,3.4,1.5,0.2,setosa
4.4,2.9,1.4,0.2,setosa
4.9,3.1,1.5,0.1,setosa
5.4,3.7,1.5,0.2,setosa
4.8,3.4,1.6,0.2,setosa
4.8,3,1.4,0.1,setosa
4.3,3,1.1,0.1,setosa
5.8,4,1.2,0.2,setosa
5.7,4.4,1.5,0.4,setosa
5.4,3.9,1.3,0.4,setosa
5.1,3.5,1.4,0.3,setosa
5.7,3.8,1.7,0.3,setosa
5.1,3.8,1.5,0.3,setosa
5.4,3.4,1.7,0.2,setosa
5.1,3.7,1.5,0.4,setosa
4.6,3.6,1,0.2,setosa
5.1,3.3,1.7,0.5,setosa
4.8,3.4,1.9,0.2,setosa
5,3,1.6,0.2,setosa
5,3.4,1.6,0.4,setosa
5.2,3.5,1.5,0.2,setosa
5.2,3.4,1.4,0.2,setosa
4.7,3.2,1.6,0.2,setosa
4.8,3.1,1.6,0.2,setosa
5.4,3.4,1.5,0.4,setosa
5.2,4.1,1.5,0.1,setosa
5.5,4.2,1.4,0.2,setosa
4.9,3.1,1.5,0.2,setosa
5,3.2,1.2,0.2,setosa
5.5,3.5,1.3,0.2,setosa
4.9,3.6,1.4,0.1,setosa
4.4,3,1.3,0.2,setosa
5.1,3.4,1.5,0.2,setosa
5,3.5,1.3,0.3,setosa
4.5,2.3,1.3,0.3,setosa
4.4,3.2,1.3,0.2,setosa
5,3.5,1.6,0.6,setosa
5.1,3.8,1.9,0.4,setosa
4.8,3,1.4,0.3,setosa
5.1,3.8,1.6,0.2,setosa
4.6,3.2,1.4,0.2,setosa
7,3.2,4.7,1.4,versicolor
6.4,3.2,4.5,1.5,versicolor
6.9,3.1,4.9,1.5,versicolor
5.5,2.3,4,1.3,versicolor
6.5,2.8,4.6,1.5,versicolor
5.7,2.8,4.5,1.3,versicolor
6.3,3.3,4.7,1.6,versicolor
4.9,2.4,3.3,1,versicolor
6.6,2.9,4.6,1.3,versicolor
5.2,2.7,3.9,1.4,versicolor
5,2,3.5,1,versicolor
5.9,3,4.2,1.5,versicolor
6,2.2,4,1,versicolor
6.1,2.9,4.7,1.4,versicolor
5.6,2.9,3.6,1.3,versicolor
6.7,3.1,4.4,1.4,versicolor
5.6,3,4.5,1.5,versicolor
5.8,2.7,4.1,1,versicolor
6.2,2.2,4.5,1.5,versicolor
5.6,2.5,3.9,1.1,versicolor
5.9,3.2,4.8,1.8,versicolor
6.1,2.8,4,1.3,versicolor
6.3,2.5,4.9,1.5,versicolor
6.1,2.8,4.7,1.2,versicolor
6.4,2.9,4.3,1.3,versicolor
6.6,3,4.4,1.4,versicolor
6.8,2.8,4.8,1.4,versicolor
6.7,3,5,1.7,versicolor
6,2.9,4.5,1.5,versicolor
5.7,2.6,3.5,1,versicolor
5.5,2.4,3.8,1.1,versicolor
5.5,2.4,3.7,1,versicolor
5.8,2.7,3.9,1.2,versicolor
6,2.7,5.1,1.6,versicolor
5.4,3,4.5,1.5,versicolor
6,3.4,4.5,1.6,versicolor
6.7,3.1,4.7,1.5,versicolor
6.3,2.3,4.4,1.3,versicolor
5.6,3,4.1,1.3,versicolor
5.5,2.5,4,1.3,versicolor
5.5,2.6,4.4,1.2,versicolor
6.1,3,4.6,1.4,versicolor
5.8,2.6,4,1.2,versicolor
5,2.3,3.3,1,versicolor
5.6,2.7,4.2,1.3,versicolor
5.7,3,4.2,1.2,versicolor
5.7,2.9,4.2,1.3,versicolor
6.2,2.9,4.3,1.3,versicolor
6.3,3.3,6,2.5,virginica
5.8,2.7,5.1,1.9,virginica
7.1,3,5.9,2.1,virginica
6.3,2.9,5.6,1.8,virginica
6.5,3,5.8,2.2,virginica
7.6,3,6.6,2.1,virginica
4.9,2.5,4.5,1.7,virginica
7.3,2.9,6.3,1.8,virginica
6.7,2.5,5.8,1.8,virginica
7.2,3.6,6.1,2.5,virginica
6.5,3.2,5.1,2,virginica
6.4,2.7,5.3,1.9,virginica
6.8,3,5.5,2.1,virginica
5.7,2.5,5,2,virginica
5.8,2.8,5.1,2.4,virginica
6.4,3.2,5.3,2.3,virginica
6.5,3,5.5,1.8,virginica
7.7,3.8,6.7,2.2,virginica
7.7,2.6,6.9,2.3,virginica
6,2.2,5,1.5,virginica
6.9,3.2,5.7,2.3,virginica
5.6,2.8,4.9,2,virginica
7.7,2.8,6.7,2,virginica
6.3,2.7,4.9,1.8,virginica
6.7,3.3,5.7,2.1,virginica
7.2,3.2,6,1.8,virginica
6.2,2.8,4.8,1.8,virginica
6.1,3,4.9,1.8,virginica
6.4,2.8,5.6,2.1,virginica
7.2,3,5.8,1.6,virginica
7.4,2.8,6.1,1.9,virginica
7.9,3.8,6.4,2,virginica
6.4,2.8,5.6,2.2,virginica
6.3,2.8,5.1,1.5,virginica
6.1,2.6,5.6,1.4,virginica
7.7,3,6.1,2.3,virginica
6.3,3.4,5.6,2.4,virginica
6.4,3.1,5.5,1.8,virginica
6,3,4.8,1.8,virginica
6.9,3.1,5.4,2.1,virginica
6.7,3.1,5.6,2.4,virginica
6.9,3.1,5.1,2.3,virginica
5.8,2.7,5.1,1.9,virginica
6.8,3.2,5.9,2.3,virginica
6.7,3.3,5.7,2.5,virginica
6.7,3,5.2,2.3,virginica
6.3,2.5,5,1.9,virginica
6.5,3,5.2,2,virginica

测试数据

5.1,2.5,3,1.1
5.7,2.8,4.1,1.3
5.3,3.7,1.5,0.2
5,3.3,1.4,0.2
6.2,3.4,5.4,2.3
5.9,3,5.1,1.8

2、代码

package com.knn

import org.apache.spark.{SparkConf, SparkContext}

object LrisDemo {
    def main(args: Array[String]): Unit = {
        val sc = new SparkContext(new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local"))
        val K = 9
        // 输入训练集转换为样例类
        val sample = sc.textFile("src/main/resources/knn/iris.txt")
                .map { line =>
                    val fields = line.split(",")
                    LabeledPoint(fields.last, fields.init.map(_.toDouble))
                }

        val test = sc.textFile("src/main/resources/knn/test.txt")
                .map { line =>
                    val features = line.split(",")
                    LabeledPoint("", features.map(_.toDouble))
                }

        val sampleData = sample.filter(_.label != "")
        val testData = test.map(_.features).collect()

        testData.foreach(elem => {
            val distance = sampleData.map(x => (getDistance(elem, x.features), x.label))
            // 获取距离最近的k个样本
            val minDistance = distance.sortBy(_._1).take(K)
            // 取出这k个样本的label，并获取出现最多的label视为最终确定的label
            val labels = minDistance.map(_._2)
                    .groupBy(x => x)
                    .mapValues(_.length)
                    .toList
                    .sortBy(_._2)
                    .take(1)
                    .map(_._1)
            println(elem.mkString(","), labels.mkString(","))
        })

        sc.stop()
    }

    import scala.math._

    // 求距离方法
    def getDistance(x: Array[Double], y: Array[Double]): Double = {
        // 每个数组中的元素的差的平方和，再sqrt开方就是距离，即欧式距离的计算
        // pow(a -b ,2) 即 （a - b）^ 2
        // sqrt 即 开方
        sqrt(x.zip(y).map(elem => pow(elem._1 - elem._2, 2)).sum)
    }
}

// 样例类 label标签 + 特征数组
case class LabeledPoint(label: String, features: Array[Double])

赵昕彧

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Spark——KNN代码及注解

一、简介KNN及K邻近分类算法，通过搜索K个最相似的实例（邻居）的整个训练集并总结那些K个实例的输出变量，对新数据点进行预测。而寻找邻近点的距离公式一般使用欧式距离公式。二、示例1、数据该数据是根据鸢尾花特征来区分种类的数据。前四个特征为花萼长度，花萼宽度，花瓣长度，花瓣宽度，最后一个为种类。该数据分为训练数据与测试数据。训练数据5.1,3.5,1.4,0.2,setosa4.9,3,1.4,0.2,setosa4.7,3.2,1.3,0.2,setosa4.6,3.1,1.5,.
复制链接

扫一扫