Spark
蓦然_
大数据开发,公众号:旧时光大数据
展开
-
Spark的RDD介绍
1、RDD为什么会产生 RDD是Spark的基石,是实现Spark数据处理的核心抽象。 Hadoop的MapReduce是一种基于数据集的工作模式,面向数据,这种工作模式一般是从存储上加载数据集,然后操作数据集,最后写入物理存储设备。数据更多面临的是一次性处理。 MR的这种方式对数据领域两种常见的操作不是很高效。第一种是迭代式的算法。比如机器学习中ALS、...原创 2019-05-29 21:07:17 · 1037 阅读 · 0 评论 -
org.apache.hadoop.security.AccessControlException: Permission denied: user=Drift, access=WRITE, inod
在Spark的测试当中,通过IDEA远程测试时,出现以下错误:Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: user=Drift, access=WRITE, inode="/user":root:supergroup:drwxr-xr-xat...原创 2019-09-22 20:04:29 · 732 阅读 · 0 评论 -
Spark从kafka中读取数据,Direct Approach相较于Receiver-based Approach方式的区别
1、简化的并行:在Receiver的方式中我们提到创建多个Receiver之后利用union来合并成一个Dstream的方式提高数据传输并行度。而在Direct方式中,Kafka中的partition与RDD中的partition是一一对应的并行读取Kafka数据,这种映射关系也更利于理解和优化。2、高效:在Receiver的方式中,为了达到0数据丢失需要将数据存入Write Ahea...原创 2019-07-25 11:40:04 · 397 阅读 · 0 评论 -
Spark Standalone模式下启动集群的基本流程
Master启动时首先创一个RpcEnv对象,负责管理所有通信逻辑 Master通过RpcEnv对象创建一个Endpoint,Master就是一个Endpoint,Worker可以与其进行通信 Worker启动时也是创一个RpcEnv对象 Worker通过RpcEnv对象创建一个Endpoint Worker通过RpcEnv对,建立到Master的连接,获取到一个RpcEndpoint...原创 2019-07-25 09:12:32 · 276 阅读 · 0 评论 -
Spark2.x和Spark1.x版本的区别
1、Spark2.x实现了对Spark SQL和Hive SQL操作API的统一2、Spark2.x引入了SparkSession的概念,提供了一个统一的切入口来使用Spark的各项功能,统一了旧的SQLContext和HiveContext3、统一了DataFrame和DataSets的API4、Spark Streaming基于Spark SQL构建了high-level API,...原创 2019-07-24 19:03:20 · 3493 阅读 · 0 评论 -
Storm、Spark Streaming的区别
Storm、Spark Streaming的区别主要在一下几点1、Storm是一个纯实时的流式处理框架,即来一条数据处理一条数据,这样势必集群内有频繁的网络通讯,吞吐量低2、Spark Streaming是微批处理框架,吞吐量高3、Storm的事务处理机制要比Spark Streaming的好,Spark Streaming中存在丢失数据或者重复计算的问题,Storm中接受或拉取的每条...原创 2019-07-12 23:15:31 · 1437 阅读 · 0 评论 -
Spark Streaming的DStream转换
目录DStream转换1、无状态转换2、有状态转换2-1、updateStateByKey2-2、Window OperationsDStream转换 DStream上的原语与RDD的类似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:...原创 2019-06-03 23:49:52 · 559 阅读 · 0 评论 -
Spark Streaming介绍及概括
目录一、Spark Streaming概述1、概述2、什么是DStream3、Spark与Storm对比二、Spark Streaming整体架构三、初始化Spark Streaming1、Spark Streaming入口四、运行Spark Streaming1、IDEA编写WordCount代码五、Spark Streaming的输入1、基本数据源...原创 2019-06-03 23:49:08 · 935 阅读 · 0 评论 -
Spark的DAG图
DAG(Directed Acyclic Graph)叫做有向无环图,原始的RDD通过一系列的转换就就形成了DAG,根据RDD之间的依赖关系的不同将DAG划分成不同的Stage,对于窄依赖,partition的转换处理在Stage中完成计算。对于宽依赖,由于有Shuffle的存在,只能在parent RDD处理完成后,才能开始接下来的计算,因此宽依赖是划分Stage的依据。 ...原创 2019-05-29 21:21:30 · 5730 阅读 · 2 评论 -
Spark的RDD的依赖关系
RDD的依赖关系:宽依赖、窄依赖、Lineage(血统关系)宽依赖:指的是多个子RDD的Partition会依赖同一个父RDD的Partition,会引起shuffle(可以理解为超生)窄依赖:指的是每一个父RDD的Partition最多被子RDD的一个Partition使用(可以理解为独生子女) Lineage:应用在整个过程中,RDD之间形成的产生关系,就叫做血统...原创 2019-05-29 21:19:00 · 729 阅读 · 0 评论 -
Spark的RDD操作:转换(transformation)和行动(action)
RDD的操作分为两大类:转换(transformation)和行动(action)转换:通过操作将一个RDD转换成另一个RDD行动:将一个RDD进行求值或者输出所有这些操作主要针对两种类型的RDD: 1)数值RDD 2)键值对RDD注:RDD的所有转换操作都是懒执行的,只有当行动操作出现的时候Spark才会去真的执行=====================...原创 2019-05-29 21:16:00 · 4220 阅读 · 0 评论 -
启动Spark时,出现JAVA_HOME not set异常
启动Spark时,出现JAVA_HOME not set异常如下:解决方案如下:在spark的sbin目录下的spark-config.sh中添加JDK的路径即可(自己的路径)export JAVA_HOME=/opt/module/jdkxxx...原创 2019-09-22 20:10:13 · 416 阅读 · 0 评论