Machine Learning on Spark——第三节统计基础（一)

最新推荐文章于 2020-09-04 12:19:18 发布

VIP文章 zhouzhihubeyond

最新推荐文章于 2020-09-04 12:19:18 发布

阅读量6k

点赞数

本文链接：https://blog.csdn.net/lovehuangjiaju/article/details/48438683

版权

作者：周志湖
微信号：zhouzhihubeyond

本文主要内容

本文对了org.apache.spark.mllib.stat包及子包中的相关统计类进行介绍，stat包中包括下图中的类或对象:
这里写图片描述
本文将对其中的部分内容进行详细讲解

获取矩阵列（column-wise）统计信息
Kernel density estimation（核密度估计)
Hypothesis testing（假设检验)

1. 获取矩阵列（column-wise）统计信息

获取列统计信息指的是以矩阵中的列为单位获取其统计信息（如每列的最大值、最小值、均值等其它统计特征）

package cn.ml.stat

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.stat.Statistics
import org.apache.spark.mllib.stat.MultivariateStatisticalSummary

object StatisticsDemo extends App {
   
  val sparkConf = new SparkConf().setAppName("StatisticsDemo").setMaster("spark://sparkmaster:7077") 
  val sc = new SparkContext(sparkConf)

  val rdd1= sc.parallelize(
      Array(
          Array(1.0,2.0,

最低0.47元/天解锁文章

zhouzhihubeyond

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Machine Learning on Spark——第三节统计基础（一)

作者：周志湖微信号：zhouzhihubeyond本文主要内容本文对了org.apache.spark.mllib.stat包及子包中的相关统计类进行介绍，stat包中包括下图中的类或对象: 本文将对其中的内容进行详细讲解获取矩阵列（column-wise）统计信息Kernel density estimation（核密度估计)Hypothesis testing（假设检验)1.
复制链接

扫一扫