【-- Spark --】
专为大规模数据处理而设计的快速通用的计算引擎
始途行者
收集分享总结一些文章 方便查看 希望能够帮助到大家。
展开
-
【Spark】之RDD & DataSet & DataFrame转换
前面已经给大家说过RDD、DataSet、DataFrame三者之间的关系以及区别,各自都有各自的优劣。RDD、DataFrame、Dataset三者有许多共性,有各自适用的场景常常需要在三者之间转换。今天就给大家说说他们直接按的无缝转换。DataFrame/Dataset转RDD这个转换很简单,只需要在类型的后面.rdd就可以转换成RDD。如何创建DataFrame/Dataset的方法在前面已经说过在这里就不多说了。val createDS = spark.createDataset(1 to原创 2020-08-28 14:35:34 · 808 阅读 · 0 评论 -
【Spark】DataFrame执行SQL查询&全局表部份表
利用sql进行查询,SparkSession提供了直接执行sql查询的接口,其步骤为注册临时表,然后进行sql查询package sparksqlimport org.apache.spark.sql.SparkSessionobject SparkSqltest1 { def main(args: Array[String]): Unit = { //创建sparksession val sparkSession=SparkSession.builder().app原创 2020-08-28 09:38:37 · 678 阅读 · 0 评论 -
【Spark】创建sparkSession&DataFrame基本操作
概述sparkSession对象不仅为用户提供了创建dataframe对象、读取外部数据源并且转化为dataframe对象以及执行sql的api,改负担着记录用户希望spark应用如何在spark集群运行的控制调试参数,是sparksql的上下文环境,是运行的基础1.创建sparkSessionpackage sparksqlimport org.apache.spark.sql.SparkSessionobject SparkSqltest1 { def main(args: Arra原创 2020-08-27 14:43:25 · 2330 阅读 · 0 评论 -
【Spark】Spark 与 Hadoop MR 之间的区别
首先Spark是借鉴了mapreduce并在其基础上发展起来的,继承了其分布式计算的优点并改进了mapreduce明显的缺陷,但是二者也有不少的差异具体如下:1、spark把运算的中间数据存放在内存,迭代计算效率更高;mapreduce的中间结果需要落地,需要保存到磁盘,这样必然会有磁盘io操做,影响性能。2、spark容错性高,它通过弹性分布式数据集RDD来实现高效容错,RDD是一组分布式的存储在节点内存中的只读性质的数据集,这些集合是弹性的,某一部分丢失或者出错,可以通过整个数据集的计算流程原创 2020-08-27 13:41:21 · 378 阅读 · 0 评论 -
【Spark 】Spark 调优原则
Spark的调优是面试或者笔试考察的重点:总结下 1.开发调优:原则一:避免创建重复的RDD。原则二:尽可能复用同一个RDD。原则三:对多次使用的RDD进行持久化。原则四:尽量避免使用shuffle类算子 。原则五:使用map-side预聚合的shuffle操作。原则六:使用高性能的算子原则七:广播大变量。原则八:使用Kryo优化序列化性能。原则九:优化数据结原创 2020-08-12 10:50:23 · 284 阅读 · 0 评论 -
【Spark】运行 & 流程
一、Spark中的基本概念(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext(3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行某些task,并且负责将数据存在内存或者磁盘上。在Spark on Yarn模式下,其进程名称为 CoarseGrai原创 2020-08-03 11:03:26 · 279 阅读 · 0 评论 -
【Spark】架构原理RDD使用详解
一、Spark 架构原理SparkContext 主导应用执行Cluster Manager 节点管理器把算子RDD发送给 Worker NodeCache : Worker Node 之间共享信息、通信Executor 虚拟机 容器启动 接任务 Task(core数 一次处理一个RDD分区)1.1 Spark架构核心组件1.2 各部分功能图Driver 注册了一些 Executor后,就可以开始正式执行 spark 应用程序了。第一步是创建 RDD,读取数据源;HDFS 文原创 2020-08-03 10:58:01 · 384 阅读 · 0 评论 -
【Spark】Spark2.3.4 集群分布式安装
一、下载Spark安装包从官网下载:http://spark.apache.org/downloads.html二、安装准备以下安装都可以参照以前的环境搭建博客:1、Java8安装成功2、zookeeper安装成功3、hadoop2.6.0 HA安装成功4、Scala安装成功(不安装进程也可以启动)三、Spark安装1、上传并解压缩 spark-2.3.4-bin-hadoop2.6.tgz2、移动到 /opt/soft/spark234 目录下[root@zj1 opt]# mv原创 2020-08-03 10:54:07 · 445 阅读 · 0 评论 -
【Spark】入门基础介绍
文章目录一、什么是Spark二、为什么要学Spark三、Spark的四大特性1、高效性2、易用性3、通用性4、兼容性四、Spark的组成五、应用场景一、什么是Spark官网地址:http://spark.apache.org/Apache Spark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看,Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框原创 2020-07-31 16:47:42 · 313 阅读 · 0 评论