spark
在屋顶听歌
Stay Focused And Work Hard !!!
展开
-
Spark伪分布式安装(一)
笔者是在已安装好的伪分布式Hadoop环境下安装的Spark。虚拟机环境为:centos7。Hadoop版本号为:[centosm@centosm spark]$ hadoop versionHadoop 2.7.2一、Spark伪分布式安装1、确定hadoop环境已安装好2、下载spark http://spark.apache.org/downloads.html 3、解压spa原创 2017-06-23 15:15:44 · 1884 阅读 · 0 评论 -
RDD 运行原理(二)
在学习Spark 之前笔者是先大致了解Spark的一些基本概念,以及在各种网站进行浏览一般,在大致对Spark整体知识有了一定的了解后再进行比较系统的学习与了解。在了解的过程中发现学习Spark前对RDD原理的理解是比较重要的,因而笔者是先了解RDD 相关原理然后再进行相应的学习。一.设计背景许多迭代式算法(比如机器学习、图算法等)和交互式数据挖掘工具,共同之处是,不同计算阶段之间会重用中间结果。原创 2017-06-23 15:42:17 · 3802 阅读 · 0 评论 -
Spark 简介(三)
一、Spark 是什么及其特点Spark是基于内存计算的大数据并行计算框架,可用于构架大型的、低延迟的数据分析应用程序。Spark具有如下几个主要特点:运行速度快:使用DAG执行引擎以支持循环数据流与内存计算。容易使用:支持使用Scala、Java、Python和R语言进行编程,可以通过Spark Shell进行交互式编程通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学原创 2017-06-23 16:53:28 · 1793 阅读 · 0 评论 -
Spark Sql快速入门
注:笔者环境 hdp2.5 + linux + spark1.6.3一. Spark SQL简介Spark SQL是一个用来处理结构化数据的Spark组件。 可被视为一个分布式的SQL查询引擎,并且提供了一个叫做DataFrame的可编程抽象数据模型。 Spark SQL可以直接处理RDD,也可以处理Parquet文件或者JSON文件,甚至可以处理外部数据库(关系型数据库一样支持...原创 2018-08-12 16:32:00 · 1267 阅读 · 0 评论 -
Spark之RDD编程快速入门
一、RDD的创建scala> val a = sc.parallelize(List("dog", &原创 2018-08-03 13:08:47 · 3165 阅读 · 0 评论 -
Spark Streaming编程快速入门
一、Spark Streaming 简述Spark Streaming是一个构建在Spark之上,是Spark四大组件之一是Spark系统中用于处理流式数据的分布式流式处理框架具有可伸缩、高吞吐量、容错能力强等特点。处理的数据源可以来自Kafka,Flume,Twitter,ZeroMQ,Kinesis or TCP sockets等,结果集可保存到HDFS、数据库或者实时Dashbo...原创 2018-08-18 10:43:14 · 1065 阅读 · 0 评论