spark高级数据分析实战--网络流量异常检测1

项目结构图

项目结构如下图所示

CountClass.scala

package internet

import org.apache.spark.mllib.clustering.{KMeans, KMeansModel}
import org.apache.spark.mllib.linalg.Vector
import org.apache.spark.rdd.RDD

/**
  * Created by 汪本成 on 2016/7/22.
  */
object CountClass {

  /**
    * 欧氏距离公式
    * x.toArray.zip(y.toArray)对应 "两个向量相应元素"
    * map(p => p._1 - p._2)对应 ""
    * map(d => d*d).sum对应 "平方和"
    * math.sqrt()对应 "平方根"
    *
    * @param x
    * @param y
    * @return
    */
  def distance(x: Vector, y: Vector) = {
    math.sqrt(x.toArray.zip(y.toArray).map(p => p._1 - p._2).map(d => d*d).sum)
  }

  /**
    * 欧氏距离公式应用到model    * KMeansModel.predict方法中调用了KMeans对象的findCloest方法
    *
    * @param datum
    * @param model
    * @return
    */
  def distToCentroid(datum: Vector, model: KMeansModel) = {
    //找最短距离的点
    val cluster = model.predict(datum)
    //找中心点
    val centroid = model.clusterCenters(cluster)
    distance(centroid, datum)
  }

  /**
    * kmodel平均质心距离
    *
    * @param data RDD向量格式
    * @param k  分类数
    * @return
    */
  def clusteringScore(data: RDD[Vector], k: Int) = {
    val kmeans = new KMeans()
    kmeans.setK(k)
    val model = kmeans.run(data)
    data.map(datum => distToCentroid(datum, model)).mean()
  }

  /**
    * k的取值进行评价
  • 3
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值