![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
大数据容器
这个作者很懒,什么都没留下…
展开
-
spark的wordcount之scala写法
读取内存的数据package com.aura.wordcountimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * 使用scala实现wordCount,读取内存中的List集合中的数据进行统计 */object _01wordCount { def...原创 2019-06-19 22:27:32 · 489 阅读 · 0 评论 -
Spark程序运行方式
Spark程序运行方式本文主要介绍Spark上传集群运行的过程及shell脚本的编写脚本文件编写参数介绍在linux环境下 spark-submit指令打印如下[hadoop@hadoop01 MyShell]$ spark-submitUsage: spark-submit [options] <app jar | python file> [app arguments]...原创 2019-06-19 23:20:13 · 720 阅读 · 0 评论 -
spark运行原理
添加链接描述转载 2019-06-21 07:56:38 · 149 阅读 · 0 评论 -
Spark的数据倾斜
Spark的数据倾斜1.数据倾斜的概念(这个不用说了都懂)略2.发生数据倾斜的现象个别的task运行时间明显长于其他的task发生OOM异常3.发生数据倾斜的原因spark只要是发生数据倾斜必然经历了shuffle,也就是shuffle是数据倾斜的必要条件4.发生数据倾斜之后的解决方案1.提高并行度程序运行缓慢,第一反应大多是资源分配不足,并行度不够。提高并行度是我们做数据...原创 2019-06-25 20:38:23 · 291 阅读 · 0 评论 -
Mapreduce和Spark的对比
MR和Spark的对比针对这两款计算框架从下边几个方面进行对比1.通用性1.1Spark一栈式,主要说的是,Spark不仅仅可以进行离线计算(SparkCore),同时还可以进行流式处理(SparkStreaming)、交互式计算(SparkShell,SparkSQL,StructStreaming,图计算(SparkGraphx),机器学习(SparkMLLib),也就是说我们可以在...原创 2019-06-25 21:31:48 · 2388 阅读 · 0 评论 -
Spark的wordCount之java的写法
Spark-WordCount 之java写法1.原始写法package com.aura.spark.day01;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apac...原创 2019-06-18 18:50:15 · 268 阅读 · 0 评论