![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据架构
文章平均质量分 74
OldBoyee
专注大数据领域,Hadoop生态圈,Hbase,Hive,Kafka,Storm,Spark计算框架,机器学习
展开
-
Spark 第三方jar包依赖解决方案
在进行Spark开发和学习中,有时会遇到缺包或找不到类的情况,或是需要自定义扩展一些功能,那么我们就要了解第三方jar包依赖解决方案,今天抽空总结一下各种解决方案和适用场景。一. 将第三方的jar文件打包到应用jar文件中 使用场景:第三方jar文件比较小,依赖的spark应用比较少 二. 使用参数–jars给定依赖jar文件 要求jar文件在driv原创 2017-06-05 11:54:50 · 4982 阅读 · 1 评论 -
Spark分组二次排序
在运用Spark数据处理中,有时要对数据进行分组(二次)排序。数据存储在HDFS中。实现代码如下: package com.ibeifeng.spark.core import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} import scala.collection.mutable原创 2017-06-14 21:42:25 · 1354 阅读 · 0 评论