![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
「已注销」
这个作者很懒,什么都没留下…
展开
-
Spark基本原理初识与补充
文章目录SparkSpark基本原理初识基本概念执行流程总结RDD数据源普通文本文件JDBC⭐HadoopAPI⭐SequenceFile对象文件HBase⭐写在前面:小弟我在学习Spark的过程中,整理了一份思维导图(里面的内容算不上深奥,只是针对在学习过程中对Spark知识点的回顾),有兴趣的可以点击上方下载链接下载。你们的鼓励是对我最大的支持。SparkSpark基本原理初识基本概念http://spark.apache.org/docs/latest/cluster-overview.ht原创 2020-05-24 15:16:48 · 332 阅读 · 1 评论 -
SparkSQL与Hive整合(Spark-On-Hive)
Spark-On-Hive为什么要把Spark和Hive整合?Hive将SQL转成MR程序,执行速度相对较慢原理: 使用SparkSQL整合Hive,其实就是让SparkSQL去加载Hive的元数据库,然后通过SparkSQL执行引擎去操作Hive表内的数据。 所以,首先要开启Hive的元数据服务,让SparkSQL能够加载到元数据。1、Hive开启MetaStore服务修改:hive/conf/hive-site.xml,新增加以下配置 <property>原创 2020-05-18 22:42:05 · 843 阅读 · 0 评论 -
Spark的On Yarn集群模式部署及参数详解
Spark的On Yarn集群模式部署官方文档http://spark.apache.org/docs/latest/running-on-yarn.html准备工作安装启动Hadoop(需要使用HDFS和YARN)安装单机版Spark这里不需要启动集群,因为把Spark程序提交到YARN运行本质上就是把字节码给YARN集群上的JVM运行,但是有一个东西帮我们把任务提交上到YARN,所以需要一个单机版的Spark,里面有spark-shell命令 - spark-submit修改配置在原创 2020-05-12 16:07:16 · 1347 阅读 · 0 评论 -
Spark的StandAlone - HA高可用模式部署
StandAlone - HA高可用模式为什么要使用HA高可用模式Spark StandAlone集群是Master - Slaves架构的集群模式,和大部分的Master - Slaves结构集群一样,存在着Master单点故障问题。提问:如何解决这个单点故障的问题?Spark提供了两种解决方案基于文件系统的单点恢复(Single-Node Recovery with Local File System)基于Zookeeper的Standby Masters(Standby Masters原创 2020-05-12 15:03:31 · 311 阅读 · 0 评论 -
Spark的StandAlone集群模式安装部署
StandAlone集群模式的介绍与部署集群角色介绍Spark是基于内存计算的大数据并行计算框架,实际中运行计算任务肯定是使用集群模式,那么就需要了解spark自带的standalone集群模式的架构以及它的运行机制stand alone集群模式使用了分布式计算中的master - slave模型master是集群中含有master进程的节点slave是集群中worker节点含有Executor进程Spark架构图如下:Apache对spark架构的官方描述:http://spark.apa原创 2020-05-12 12:10:52 · 510 阅读 · 0 评论 -
Spark的本地模式安装部署与初体验
Spark开箱即用,测试使用的是:spark-2.2.0-bin-2.6.0-cdh5.14.0版本。下载地址:spark-2.2.0-bin-2.6.0-cdh5.14.0下载其他版本请访问apache官方:http://spark.apache.org/downloads.htmllocal本地模式 - Spark初体验上传与解压将压缩包上传至Linux后解压cd /export/serverstar -zxvf ./spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz原创 2020-05-12 10:41:07 · 396 阅读 · 0 评论