Spark 分层抽样与求最大值最小值

最新推荐文章于 2022-10-22 09:35:17 发布

置顶光于前裕于后

最新推荐文章于 2022-10-22 09:35:17 发布

阅读量3.4k

点赞数

分类专栏：大数据动物园 Spark 大数据基础知识文章标签： spark

本文链接：https://blog.csdn.net/Dr_Guo/article/details/77450964

版权

大数据基础知识同时被 3 个专栏收录

28 篇文章 18 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

大数据动物园

95 篇文章 6 订阅

订阅专栏

Spark

27 篇文章 1 订阅

订阅专栏

本文详细探讨了如何在 Spark 中进行分层抽样，并讲解了如何有效地计算数据集的最大值和最小值。通过实例，展示了Spark SQL 和 DataFrame API 的使用方法，帮助读者理解并掌握在大规模数据上进行抽样和极值计算的技巧。

摘要由CSDN通过智能技术生成

详见注释

package com.beagledata.spark

import org.apache.spark.{SparkConf, SparkContext}

/**
  * 分层抽样
  *
  * Created by drguo on 2017/8/21.
  * blog.csdn.net/dr_guo
  */

object PCSStratifiedSampling {
  val conf = new SparkConf().setAppName("pcs_sampling")
    .set("spark.jars.packages", "io.netty:netty-common:4.1.8.Final")
    .set("spark.jars.exclude", "io.netty:netty-common")
    //.setMaster("local")

  val sc = new SparkContext(conf)

  def main(args: Array[String]): Unit = {

    //val pcs = sc.textFile("src/main/resources/part-00000")
    //val pcs = sc.textFile("hdfs://xxxx:8020/data1/Data/NewPCSData")
    val pcs = sc.textFile(args(0))

    //设定抽样格式 double类型变

了解本专栏