scala
大数据容器
这个作者很懒,什么都没留下…
展开
-
Scala的基础算子的练习
对scala的数组和集合的一些常用的算子进行总结 以代码的形式进行一些练习 package com.aura.test object ScalaFunction { def main(args: Array[String]): Unit = { //常用的算子的练习 map reduce sort count filter var array = Array[Int](...原创 2019-06-12 21:25:37 · 535 阅读 · 0 评论 -
spark的wordcount之scala写法
读取内存的数据 package com.aura.wordcount import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * 使用scala实现wordCount,读取内存中的List集合中的数据进行统计 */ object _01wordCount { def...原创 2019-06-19 22:27:32 · 524 阅读 · 0 评论 -
Spark程序运行方式
Spark程序运行方式 本文主要介绍Spark上传集群运行的过程及shell脚本的编写 脚本文件编写参数介绍 在linux环境下 spark-submit指令打印如下 [hadoop@hadoop01 MyShell]$ spark-submit Usage: spark-submit [options] <app jar | python file> [app arguments] ...原创 2019-06-19 23:20:13 · 762 阅读 · 0 评论 -
Spark的数据倾斜
Spark的数据倾斜 1.数据倾斜的概念 (这个不用说了都懂)略 2.发生数据倾斜的现象 个别的task运行时间明显长于其他的task 发生OOM异常 3.发生数据倾斜的原因 spark只要是发生数据倾斜必然经历了shuffle,也就是shuffle是数据倾斜的必要条件 4.发生数据倾斜之后的解决方案 1.提高并行度 程序运行缓慢,第一反应大多是资源分配不足,并行度不够。提高并行度是我们做数据...原创 2019-06-25 20:38:23 · 322 阅读 · 0 评论
分享