Spark统计唯一值、缺失值和单值的算子（scala实现）

最新推荐文章于 2023-06-06 14:03:33 发布

源神

最新推荐文章于 2023-06-06 14:03:33 发布

阅读量4.7k

点赞数

分类专栏： Spark 文章标签：唯一值缺失值和单值 scala实现统计算子

本文链接：https://blog.csdn.net/ZhouyuanLinli/article/details/72834780

版权

采用传统的Spark SQL编写sql语句循环多次按列查询来实现效率太低，如是采用基本的WordCount统计单词的思想，“columnName+value”即“列名:值”作为唯一单词，用特殊分隔符隔开，遍历一次即可计算所需的所有值。代码如下：

def getStatistics(data: DataFrame):
  (java.util.HashMap[String, Long], java.util.HashMap[String, Long], java.util.HashMap[String, Long]) = {
    val colUnique = new java.util.HashMap[String, Long] //唯一值
    val colMissing = new java.util.HashMap[String, Long] //缺失值
    val colSingle = new java.util.HashMap[String, Long] //单值

    val allColArr = data.columns
    val dtypes = data.dtypes
    val colSize = allColArr.size
    val separator = "_0_" //分隔符
    val len = separator.length
    val rddHandle = data.rdd.map( row => {
      val str:StringBuilder = new StringBuilder
      for (i <- 0 to colSize - 1) {
        if (row.get(i) == null) {
          str.append(dtypes(i)._1 + ":" + separator)

最低0.47元/天解锁文章

源神

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Spark统计唯一值、缺失值和单值的算子（scala实现）

采用传统的Spark SQL编写sql语句循环多次按列查询来实现效率太低，如是采用基本的WordCount统计单词的思想，“columnName+value”即“列名:值”作为唯一单词，用特殊分隔符隔开，遍历一次即可计算所需的所有值。代码如下：def getStatistics(data: DataFrame): (java.util.HashMap[String, Long], java
复制链接

扫一扫

专栏目录