spark
文章平均质量分 83
dhtx_wzgl
这个作者很懒,什么都没留下…
展开
-
Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介
1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,转载 2015-12-14 12:38:44 · 959 阅读 · 0 评论 -
Spark入门实战系列--1.Spark及其生态圈简介
转自:http://www.cnblogs.com/shishanyuan/p/4700615.html【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、简介1.1 Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在转载 2015-12-14 13:10:28 · 1075 阅读 · 0 评论 -
Spark入门实战系列--4.Spark运行架构
转自:http://www.cnblogs.com/shishanyuan/p/4721326.html1、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;lDri转载 2015-12-14 13:15:41 · 535 阅读 · 0 评论 -
在Linux集群上安装和配置Spark
原文:http://www.cnblogs.com/sunwubin/p/4255109.html1 安装JDK1) 进入JDK官网2) 下载JDK安装包3)配置环境变量,在/etc/profile增加以下代码JAVA_HOME=/home/hadoop/jdk1.6.0_38PATH=$JAVA_HOME/bin:$PATH转载 2015-12-15 10:49:26 · 395 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(中)--深入了解SparkSQL运行计划及调优
转自:http://www.cnblogs.com/shishanyuan/p/4723641.html1.1 运行环境说明1.1.1 硬软件环境l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l 虚拟软件:VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统:CentOS6.5 64位,单转载 2015-12-14 13:17:30 · 689 阅读 · 0 评论 -
Spark入门实战系列--6.SparkSQL(下)--Spark实战应用
转自:http://www.cnblogs.com/shishanyuan/p/4723713.html1、运行环境说明1.1 硬软件环境l 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存l 虚拟软件:VMware® Workstation 9.0.0 build-812388l 虚拟机操作系统:CentOS 64位,单核l 虚拟转载 2015-12-14 13:19:23 · 620 阅读 · 0 评论