Spark SQL原理及应用方法
从Spark SQL内核剖析开始,介绍了分布式计算和数据库领域的相关技术。目的是做一个关于Spark SQL的技术分享以及整理。
丧心病狂の程序员
不可回收的程序员
展开
-
Spark SQL内核剖析(三)
物理计划阶段是Spark SQL整个查询处理流程的最后一步,在此阶段Spark SQL会对生成的逻辑算子树进行进一步处理,得到物理算子树,并将LogicalPlan节点及其包含的各种信息映射成Spark Core计算模型的元素,如RDD、Transformation和Action等,以支持其提交执行。原创 2019-08-16 23:26:05 · 462 阅读 · 0 评论 -
Spark SQL内核剖析(一)
在这一节简单介绍了Spark涉及到的几个简单技术,包括RDD编程模型、DataFrame和DataSet用户接口。简单介绍了Spark SQL内部机制中设计的基本概念。Spark SQL 内部实现上述流程中平台无关部分的基础框架叫做Catalyst,其中涉及的几种数据结构和概念如下。在Spark SQL 内部实现中,InternalRow就是用来表示一行行数据的类,物理算子树所产生的RDD即为RDD[InternalRow],包含numFields和update方法,以及各列数据对应的get和set方原创 2019-08-12 18:43:39 · 1392 阅读 · 0 评论 -
Spark SQL内核剖析(二)
本部分将介绍Spark SQL 编译器 Parser的实现方式以及Spark SQL逻辑算子树生成、分析和优化流程的技术原理和实现方式。原创 2019-08-15 00:12:31 · 922 阅读 · 0 评论 -
基于jupyter搭建pyspark编程环境
本文的前提是我们已经在linux系统上基于cdh实现了Spark on Yarn集群的搭建。python的版本选择上,我们选择python2.7版本,安装方式选择anconda安装,这里就不详细赘述了。一、pyspark的导入找到“/opt/cloudera/parcels/CDH-5.10.2-1.cdh5.10.2.p0.5/lib/spark/python/pyspark”即spar...原创 2018-12-19 11:25:33 · 1528 阅读 · 5 评论 -
基于Docker搭建cdh QuickStartVM过程全记录
系统环境首先我们要准备系统环境,这里建议选择centos7及以上的版本。安装docker建议使用yum安装,可以减少很多麻烦。yum install docker-io镜像文件解压及导入需要注意,cloudera发布的 quickstart docker镜像仅用于single模式,不支持CDH集群化。Note: Cloudera does not support CDH...原创 2019-04-21 13:41:30 · 1847 阅读 · 0 评论 -
如何使用spark-submit提交sparkSQL任务
前言本文介绍了使用java开发spark sql应用程序提交到yarn上运行的全过程,并介绍解决了一些开发和提交中常见的问题。准备首先我们要搭建好spark on yarn的集群环境,我是用cdh安装和cloudera manager进行维护的。这里用到的组件主要有yarn、hdfs和hive。对于开发人员来说唯一要准备的就是代码开发环境,使用idea创建一个maven项目,在pom....原创 2019-08-27 21:50:46 · 11321 阅读 · 0 评论 -
spark中通过rdd、dataframe和spark sql实现相同sql运行速度对比(实测)
决定做一个非常无聊的实验,众所周知现在使用spark进行数据分析一般采用rdd分布式编程、dataframe接口和使用spark sql执行的方式,那么在忽略数据加载速度的情况下,究竟哪种方式的运行速度最快呢?至于rdd和dataframe数据集的原理和区别,我就不在这里介绍了,可以看RDD DataFrame Dataset 三者的优缺点 , 三者之间的创建 , 以及相互转换这篇文章。数据集...原创 2019-09-12 00:53:50 · 5412 阅读 · 4 评论 -
敏捷数据科学—大数据项目中的敏捷开发
敏捷数据科学,它的目标是记录探索数据分析的过程并促进和指导这一过程,以期发现实现一款引人注目的数据分析产品的关键路径,并沿着这条路走下去。敏捷数据科学深入本质,关注探索数据分析的过程,并记录在过程中收获的认知。敏捷数据分析把这些当作产品的主要工作。通过抓住本质,我们把整个过程的焦点放在可预测的事务上,而不是放在产品不可预测的输出上,这样便于我们管理整个过程。原创 2019-09-21 15:14:44 · 1535 阅读 · 0 评论