spark
LALALA3_3
这个作者很懒,什么都没留下…
展开
-
Spark相关
1.Spark Shuffle实现原理及代码解析Shuffle,简而言之,就是对数据进行重新分区,其中会涉及大量的网络io和磁盘io,为什么需要shuffle,以词频统计reduceByKey过程为例,shuffle过程如下图:spark的shuffle操作有之前的版本和现在优化后的版本,它可以通过一个参数来调节,具体我们后面会详述,本篇主要从以下几个方面来深入Shuffle原理:普...原创 2020-05-01 20:07:25 · 447 阅读 · 0 评论 -
SparkCore
一、RDD概述在介绍RDD之前先介绍一下java中的IO:缓冲流(缓冲流提高效率):装饰者设计模式表示一种功能的扩展,在这里真正读文件的是in而不是buggerIn,javaIO强大的原因就是他可以动态的扩展他的功能字符流:使用BufferedReader可以一行一行的读取数据,但要注意并不是所有的字符流都可以一行一行的读数据。前面的步骤只是转换包装并没有真正的读取,只有用的时候即...原创 2020-02-28 00:02:47 · 192 阅读 · 0 评论 -
Spark基础解析
一. 介绍spark之前我们先说一下hadoop:Hadoop历史:2003、2004Google发表2篇论文2011年发布1.0版本2012年发布稳定版2013年10月发布2.x 版本(1.2和2.0版本的根本区别是yarn)左边用来存储数据右边用来计算数据mr的缺点:1.mr是基于数据集的计算,所以是面向数据的,基本运算规 则从存储介质中获取(采集)数据,然后进行计算,...原创 2020-02-25 23:51:48 · 329 阅读 · 0 评论 -
spark
1.spark集群配置:修改配置文件conf/spark-env.shexport JAVA_HOME=/root/apps/jdk1.8.0_201export SPARK_MASTER_HOST=hdp-0export SPARK_MASTER_PORT=7077export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZO...原创 2019-12-04 11:25:58 · 159 阅读 · 0 评论