Spark2 DataFrameStatFunctions探索性数据统计分析

最新推荐文章于 2021-01-13 05:15:34 发布

大数据-酷峰中行

最新推荐文章于 2021-01-13 05:15:34 发布

阅读量1.2k

点赞数 1

分类专栏： Spark Scala 数据分析机器学习

本文链接：https://blog.csdn.net/hadoop_spark_storm/article/details/53423446

版权

本文探讨了如何使用Spark2中的DataFrameStatFunctions进行探索性数据统计分析，包括查看字段中的频繁元素集合和计算相关系数，为数据预处理和挖掘提供了有效工具。

摘要由CSDN通过智能技术生成

data数据源，请参考我的博客http://blog.csdn.net/hadoop_spark_storm/article/details/53412598

import org.apache.spark.sql.DataFrameStatFunctions

查看字段中频繁元素的集合

val colArray1=Array("affairs", "gender", "age", "yearsmarried")

data.stat.freqItems(colArray1).show(10,truncate=false)
+-------------------------------+----------------+------------------------------------------------------+-----------------------------------------------+
|affairs_freqItems              |gender_freqItems|age_freqItems                                         |yearsmarried_freqItems                         |
+-------------------------------+----------------+-------------------------------------------------

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大数据-酷峰中行

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark2 DataFrameStatFunctions探索性数据统计分析

相关系数val df = Range(0,10,step=1).toDF("id").withColumn("rand1", rand(seed=10)).withColumn("rand2", rand(seed=27))df: org.apache.spark.sql.DataFrame = [id: int, rand1: double ... 1 more field]df.stat.co
复制链接

扫一扫