![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
记录Spark相关细节
江湖峰哥
这个作者很懒,什么都没留下…
展开
-
Spark Shuffle原理及相关调优
Spark Shuffle原理及相关调优阅读上面这位大佬的技术分享,个人觉得文章很精致且易懂转载 2020-06-10 10:06:13 · 213 阅读 · 0 评论 -
Spark.graph实现找有某个共同关系的数据合并聚合
/** * Description: 使用Spark.graph实现找有某个共同关系的数据合并聚合 * Author: Administrator * Date: 2020/4/14 0014 */object TempObj { def main(args: Array[String]): Unit = { val sparkSession = SparkSession....原创 2020-04-14 12:32:27 · 295 阅读 · 0 评论 -
Spark countByKey算子
该算子先按照key分组再做count操作注意事项1.数据类型是K,V的RDD才能调用该算子2.该算子只会在Driver端启动Executor进程来执行计算3.计算的结果以Map[K, Long]的形式保存在Driver端内存中所以如果要处理的数据量灰常大的时候,建议使用rdd.mapValues(_ => 1L).reduceByKey(_ + _)来代替,并且返...原创 2020-04-03 22:24:31 · 389 阅读 · 0 评论 -
Spark IDEA本地提交到集群运行job
场景:运行IDEA本地测试代码,实现提交job到本地虚拟机Spark集群环境运行前提:本地宿主机和虚拟机网路互通def main(args: Array[String]): Unit = { val sparkSession = SparkSession.builder .master("spark://hostname:7077") .appName("countBy...原创 2020-04-03 22:03:31 · 510 阅读 · 0 评论 -
spark-shell llegalArgumentException: Error while instantiating 'org.apache.spark.sql.hive
https://blog.csdn.net/querydata_boke/article/details/105289418原创 2020-04-03 11:47:39 · 177 阅读 · 0 评论 -
spark-shell Caused by: java.sql.SQLException: Failed to start database 'metastore_db' with ....
主要错误信息如下:Caused by: org.apache.derby.iapi.error.StandardException: Container Container(0, 401) cannot be opened; it either has been dropped or does not exist.Unable to instantiate org.apache.hadoo...原创 2020-04-03 11:46:14 · 729 阅读 · 0 评论 -
Spark coalesce算子
该算子可以对父RDD进行重分区,并且可以指定是否要产生Shuffle代码示例:def main(args: Array[String]): Unit = { val sparkSession = SparkSession.builder .master("local") .appName("appName") .getOrCreate() val sc = spark...原创 2020-04-02 22:49:38 · 764 阅读 · 0 评论 -
repartition算子-Spark shuffle算子之
发送到发送到发原创 2020-04-02 21:57:42 · 1086 阅读 · 0 评论 -
Spark mapPartitionsWithIndex算子
官方解释:Return a new RDD by applying a function to each partition of this RDD, while tracking the index of the original partition大白话就是该算子会以当前RDD每个分区为单位,携带分区信息回调一次你传递的方法,最后返回一个新的RDD,所以该算子是一个Transform...原创 2020-04-02 18:25:17 · 999 阅读 · 0 评论