saprk
江湖小小虾
江湖小虾,大数据爱好者,学习者,
展开
-
Spark入门实战指南——HIVE
一、HIVE简介Hive的设计目标是为了分析查询结构化的海量数据1. hive是建立在hadoop上的数据仓库基础构架2. 用来进行数据提取转化加载(ETL)3. Hive定义了简单的SQL查询语言,SQL语句转译成M/R Job然后在Hadoop上执行4. Hive表其实就是HDFS的目录(实操) 数据仓库的元数据信息:数据仓库中可原创 2016-09-09 17:06:15 · 798 阅读 · 0 评论 -
Spark入门实战指南——Spark运行架构
2016/8/291、Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码;lDriver: main()函数创建SparkContext(通常用SparkContext转载 2016-08-29 10:27:59 · 1198 阅读 · 0 评论 -
Spark集群搭建+基于zookeeper的高可用HA
1. Spark高可用HA1.1安装zookeeper1.1.1下载zookeeper-3.4.61.1.2 解压zookeeper1.1.3 修改ZOOKEEPER_HOME/PATH1.1.4 zookeeper-3.4.6]$ mkdirlogs /data①cpconf/zoo_sample.cfg conf/zoo.cfg②修改zoo.cfg中的原创 2016-08-26 19:58:11 · 9932 阅读 · 0 评论 -
Spark入门实战指南——Spark SQL入门
一、SparkSQL运行架构Spark SQL对SQL语句的处理,首先会将SQL语句进行解析(Parse),然后形成一个Tree,在后续的如绑定、优化等处理过程都是对Tree的操作,而操作的方法是采用Rule,通过模式匹配,对不同类型的节点采用不同的操作。二、SparkSQL CLI2.1 配置并启动2.1.1 创建并配置hive-site.xml在运行Spark SQL CL原创 2016-09-19 15:23:40 · 4799 阅读 · 0 评论 -
Spark入门实战指南——Spark生态圈+第一个Spark程序
一、Spark及其生态圈简介1.目前大数据处理场景有以下几个类型:1. 复杂的批量处理(BatchData Processing),偏重点在于处理海量数据的能力,至于处理速度可忍受,通常的时间可能是在数十分钟到数小时;2. 基于历史数据的交互式查询(Interactive Query),通常的时间在数十秒到数十分钟之间3. 基于实时数据流的数据处理(Streaming Data原创 2016-08-29 16:04:39 · 2237 阅读 · 0 评论 -
Spark 2.0从入门到精通245讲——操作RDD(transformation案例实战)
package cn.spark.study.coreimport org.apache.spark.SparkConfimport org.apache.spark.SparkContext/** * @author Administrator */object TransformationOperation { def main(args: Array[String]原创 2017-10-12 17:19:38 · 417 阅读 · 0 评论 -
Spark 2.0从入门到精通245讲——操作RDD(action案例实战)
package cn.spark.study.coreimport org.apache.spark.SparkConfimport org.apache.spark.SparkContext/** * @author Administrator */object ActionOperation { def main(args: Array[String]) {原创 2017-10-12 18:01:06 · 564 阅读 · 0 评论