——Spark
文章平均质量分 79
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎 。现在形成一个高速发展应用广泛的生态系统。
脸ル粉嘟嘟
BigDate.我命由我!
展开
-
离线计算调优手册
目前离线计算主要分为两块: 和 ,该手册将围绕这两部分展开说明。随着技术不断迭代升级,结合不同业务、不同场景,手册的适用性可能发生变化,因此下面介绍的优化手段可作为参考,并不是一成不变的。Hive的简单定义(来自Hive官网):简单来说,hive本身是一种数据仓库,通过其提供的sql和访问接口,使我们能够很方便的访问读写大规模数据集,无需关注底层数据是如何分布存储的。目前hive 提供了三种计算引擎:,使用者可根据hadoop集群安装环境(CDH、阿里云EMR等等)选择使用不同的计算引擎。具体可通过参数原创 2023-06-13 23:23:58 · 507 阅读 · 0 评论 -
Spark 开发环境搭建
1.创建maven工程创建project--Java创建module--maven2.添加依赖<dependencies> <!--spark依赖--> <dependency> <groupId>org.apache.spark</groupId> <...原创 2018-11-14 17:38:49 · 340 阅读 · 0 评论 -
Apache Spark编程教程
Apache Spark JavaRDD和任务解决好吧,我告诉我身边的每个人,如果你不知道map-reduce概念那么你就无法理解Apache Spark。为了证明这一点,让我们解决简单的任务。假设我们在城镇中有以下温度的文本文件:Prague 35Madrid 40Berlin 20Paris 15Rome 25位于Apache Hadoop HDFS文件系统,我们需要编写...翻译 2019-01-14 20:15:13 · 347 阅读 · 0 评论 -
00-Spark介绍
什么是Spark?Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。首先,Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和...原创 2019-01-25 11:50:38 · 4282 阅读 · 0 评论 -
01-spark单机安装部署、分布式集群与HA安装部署+spark源码编译
spark单机安装部署1.安装scala1.下载:wget https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz2.解压:tar -zxvf scala-2.11.12.tgz -C /usr/local3.重命名:mv scala-2.10.5/ scala4.配置到环境变量:export SCALA_HOME...原创 2019-01-25 13:48:32 · 547 阅读 · 0 评论 -
02-RDD与spark核心概念
Spark RDD非常基本的说明,下面一张图就能够有基本的理解:Spark RDD基本说明1、Spark的核心概念是RDD (resilient distributed dataset,弹性分布式数据集),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区...原创 2019-01-27 18:48:18 · 281 阅读 · 0 评论 -
03-sparkWC开发与应用部署
1. 使用Idea新建项目:Scala+maven工程1.1. 新建project1.2. 新建module1.3. 添加scala1.4. 添加maven还是在上面那个窗口找到maven选中,点击OK配置maven并修改maven创库1.File–点击Settings2.说明如图中所示Scala+maven项目目录结构如下2. WordCount开...原创 2019-02-03 14:54:47 · 315 阅读 · 0 评论 -
04-spak RDD算子测试实战
Spark算子概述RDD:弹性分布式数据集,是一种特殊集合、支持多种来源、有容错机制、可以被缓存、支持并行操作,一个RDD代表多个分区里的数据集。RDD有两种操作算子:• Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作• Action(执行):触发Spark作业的运行,真正触发...原创 2019-02-04 13:30:18 · 702 阅读 · 0 评论 -
05-Spark基本原理以及核心概念
Spark基本工作原理Client客户端:我们在本地编写了spark程序,打成jar包,或python脚本,通过spark submit命令提交到Spark集群;只有Spark程序在Spark集群上运行才能拿到Spark资源,来读取数据源的数据进入到内存里;客户端就在Spark分布式内存中并行迭代地处理数据,注意每个处理过程都是在内存中并行迭代完成;注意:每一批节点上的每一批数据...原创 2019-02-06 17:31:36 · 232 阅读 · 0 评论 -
06-spark RDD持久性、广播变量和累加器
Spark RDD持久化RDD持久化工作原理Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个RDD反复执行多个操作的场景,就只要对RDD计算一次即可,后面直接使用该RDD,而不需要反复计算多次...原创 2019-02-10 11:36:21 · 197 阅读 · 0 评论 -
07-Spark高级排序与TopK问题揭秘
引入前面进行过wordcount的单词统计例子,关键是,如何对统计的单词按照单词个数来进行排序?如下:scala&amp;amp;amp;gt; val retRDD = sc.textFile(&amp;amp;quot;hdfs://ns1/hello&amp;amp;quot;).flatMap(_.split(&amp;amp;quot; &amp;amp;quot;)).map((_, 1)).reduceByK原创 2019-02-10 11:46:05 · 384 阅读 · 0 评论 -
08-SparkSql架构
1、sql语句的模块解析当我们写一个查询语句时,一般包含三个部分,select部分,from数据源部分,where限制条件部分,这三部分的内容在sql中有专门的名称:当我们写sql时,如上图所示,在进行逻辑解析时会把sql分成三个部分,project,DataSource,Filter模块,当生成执行部分时又把他们称为:Result模块、DataSource模块和Opertion模块。那...原创 2019-02-19 13:03:06 · 783 阅读 · 0 评论 -
09-SparkSql实战
1、sparkSQL层级当我们想用sparkSQL来解决我们的需求时,其实说简单也简单,就经历了三步:读入数据 -> 对数据进行处理 -> 写入最后结果,那么这三个步骤用的主要类其实就三个:读入数据和写入最后结果用到两个类HiveContext和SQLContext,对数据进行处理用到的是DataFrame类,此类是你把数据从外部读入到内存后,数据在内存中进行存储的基本数据结构,在...原创 2019-02-19 13:42:23 · 185 阅读 · 0 评论 -
10-SparkSQL读取mysql数据源并将结果写回mysql
一、创建测试表t_user2、user_t和t_result1、t_user2表结构如下:CREATE TABLE `t_user2` ( `id` int(11) DEFAULT NULL COMMENT 'id', `name` varchar(64) DEFAULT NULL COMMENT '用户名', `password` varchar(64) DEFAULT NULL...原创 2019-02-23 13:53:13 · 971 阅读 · 0 评论 -
11-SparkSQL整体背景
基本概述1、Spark 1.0版本以后,Spark官方推出了Spark SQL。其实最早使用的,都是Hadoop自己的Hive查询引擎;比如MR2,我们底层都是运行的MR2模型,底层都是基于Hive的查询引擎。2、后来Spark提供了Shark;再后来Shark被淘汰(Shark制约了Spark SQL的整体发展),推出了Spark SQL。Shark的性能比Hive就要高出一个数量级,而Sp...原创 2019-02-23 13:59:41 · 213 阅读 · 0 评论 -
12-DataFrame编程模型与操作案例
DataFrame原理与解析Spark SQL和DataFrame1、Spark SQL是Spark中的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象,就是DataFrame。同时Spark SQL还可以作为分布式的SQL查询引擎。Spark SQL最重要的功能之一,就是从Hive中查询数据。2、DataFrame就易用性而言,对比传统的MapReduce API,说Sp...原创 2019-03-04 14:38:55 · 485 阅读 · 0 评论 -
Spark2.3 - 运行异常NoSuchMethodError:io.netty.buffer.PooledByteBufAllocator.metric()
一、问题说明在一个项目中同时引入了多个框架hbase 1.4.1kafka 1.1.0spark 2.3.0在以local模型运行spark示例程序的时候,出现如下报错:Exception in thread "main" java.lang.NoSuchMethodError: io.netty.buffer.PooledByteBufAllocator.metric()Lio/n...转载 2019-02-19 15:09:35 · 1534 阅读 · 0 评论