![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
LALALA3_3
这个作者很懒,什么都没留下…
展开
-
Spark相关
1.Spark Shuffle实现原理及代码解析 Shuffle,简而言之,就是对数据进行重新分区,其中会涉及大量的网络io和磁盘io,为什么需要shuffle,以词频统计reduceByKey过程为例, shuffle过程如下图: spark的shuffle操作有之前的版本和现在优化后的版本,它可以通过一个参数来调节,具体我们后面会详述,本篇主要从以下几个方面来深入Shuffle原理: 普...原创 2020-05-01 20:07:25 · 441 阅读 · 0 评论 -
SparkCore
一、RDD概述 在介绍RDD之前先介绍一下java中的IO: 缓冲流(缓冲流提高效率): 装饰者设计模式表示一种功能的扩展,在这里真正读文件的是in而不是buggerIn,javaIO强大的原因就是他可以动态的扩展他的功能 字符流: 使用BufferedReader可以一行一行的读取数据,但要注意并不是所有的字符流都可以一行一行的读数据。 前面的步骤只是转换包装并没有真正的读取,只有用的时候即...原创 2020-02-28 00:02:47 · 182 阅读 · 0 评论 -
Spark基础解析
一. 介绍spark之前我们先说一下hadoop: Hadoop历史: 2003、2004Google发表2篇论文 2011年发布1.0版本 2012年发布稳定版 2013年10月发布2.x 版本(1.2和2.0版本的根本区别是yarn) 左边用来存储数据右边用来计算数据 mr的缺点: 1.mr是基于数据集的计算,所以是面向数据的,基本运算规 则从存储介质中获取(采集)数据,然后进行计算,...原创 2020-02-25 23:51:48 · 319 阅读 · 0 评论 -
spark
1.spark集群配置: 修改配置文件conf/spark-env.sh export JAVA_HOME=/root/apps/jdk1.8.0_201 export SPARK_MASTER_HOST=hdp-0 export SPARK_MASTER_PORT=7077 export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZO...原创 2019-12-04 11:25:58 · 150 阅读 · 0 评论