spark
Cola、
日富一日,年富一年、
展开
-
Hadoop与Spark对比
Hadoop提到Hadoop大的方向一般包括两部分一部分是Map Reduce计算引擎,一般说Hadoop的缺点就是说的这部分 另一部分是HDFS存储,目前应用还是很广泛Map Reduce的缺点只能进行Map和Reduce操作 中间计算结果要保存再磁盘,反复读取IO操作会消耗大量资源 Reduce操作在Map之后,需要等并行的所有Map任务完成之后才能进行Reduce操作 以上2和3导致Hadoop延迟较高Sprk针对MapReduce缺陷的改进除了Map和Reduce操作还包原创 2021-05-06 18:06:30 · 114 阅读 · 0 评论 -
Spark数据倾斜
什么是数据倾斜当某个任务相较于其他任务来说,迟迟执行不完时,很可能就是产生了数据倾斜。比如,绝大部分任务十几秒中就执行完成了,而个别任务一小时甚至更久还没有执行完成。spark任务执行结束取决于最晚结束执行的stage。stage的划分可以简单的理解为:遇到宽依赖是当前stage的结束,也是下一个stage的开始。宽依赖(Wide Depencency,也称为Shuffle Depencency):子任务需要依赖父任务的全部分区。窄依赖(narrow dependency):父RDD的一原创 2021-04-30 16:18:22 · 116 阅读 · 1 评论 -
Spark 的三种join方式
参考博客:https://blog.csdn.net/qq_23609603/article/details/108250141Spark的join实现方案有三种:hash join broadcast hash join shuffle hash joinhash join确定 小表(Bulid Table)和 大表(Probe Table),利用小表 根据 key 进行hash,建立hash table,大表同样对key进行相同的hash,映射hash table中的记录,如果映射成.原创 2021-04-29 18:34:07 · 786 阅读 · 0 评论 -
spark打印RDD的值
初学spark,记录一些小白问题,比如打印RDD或者list的值 val conf = new SparkConf().setAppName("my spark").setMaster("local") val sc = new SparkContext(conf) val data = sc.parallelize(1 to 10, 3) println("f...原创 2019-11-24 17:25:11 · 2613 阅读 · 0 评论 -
Scala-Spark-maven项目搭建
学习大数据的最开始,从项目搭建开始。maven、scala以及spark的安装这里不做说明,介绍一个偷懒的项目搭建方法。1、首先创建一个scala项目,File->New->Project2、选择Scala项目(图中的sbt和maven一样,是一种构建项目的另一种方法)3、选择安装的jdk和Scala版本,起好项目名称,保存到期望的目录下4、copy一...原创 2019-07-15 18:23:58 · 439 阅读 · 0 评论