spark
大数据容器
这个作者很懒,什么都没留下…
展开
-
spark的wordcount之scala写法
读取内存的数据 package com.aura.wordcount import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * 使用scala实现wordCount,读取内存中的List集合中的数据进行统计 */ object _01wordCount { def...原创 2019-06-19 22:27:32 · 524 阅读 · 0 评论 -
Spark程序运行方式
Spark程序运行方式 本文主要介绍Spark上传集群运行的过程及shell脚本的编写 脚本文件编写参数介绍 在linux环境下 spark-submit指令打印如下 [hadoop@hadoop01 MyShell]$ spark-submit Usage: spark-submit [options] <app jar | python file> [app arguments] ...原创 2019-06-19 23:20:13 · 762 阅读 · 0 评论 -
spark运行原理
添加链接描述转载 2019-06-21 07:56:38 · 176 阅读 · 0 评论 -
Spark的数据倾斜
Spark的数据倾斜 1.数据倾斜的概念 (这个不用说了都懂)略 2.发生数据倾斜的现象 个别的task运行时间明显长于其他的task 发生OOM异常 3.发生数据倾斜的原因 spark只要是发生数据倾斜必然经历了shuffle,也就是shuffle是数据倾斜的必要条件 4.发生数据倾斜之后的解决方案 1.提高并行度 程序运行缓慢,第一反应大多是资源分配不足,并行度不够。提高并行度是我们做数据...原创 2019-06-25 20:38:23 · 322 阅读 · 0 评论 -
Mapreduce和Spark的对比
MR和Spark的对比 针对这两款计算框架从下边几个方面进行对比 1.通用性 1.1Spark 一栈式,主要说的是,Spark不仅仅可以进行离线计算(SparkCore),同时还可以进行流式处理(SparkStreaming)、交互式计算(SparkShell,SparkSQL,StructStreaming, 图计算(SparkGraphx),机器学习(SparkMLLib),也就是说我们可以在...原创 2019-06-25 21:31:48 · 2438 阅读 · 0 评论 -
Spark的wordCount之java的写法
Spark-WordCount 之java写法 1.原始写法 package com.aura.spark.day01; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apac...原创 2019-06-18 18:50:15 · 303 阅读 · 0 评论
分享