![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
痞子锐
逆水行舟 不进则退
展开
-
Spark学习之路 (一)Spark初识
Spark学习之路 (一)Spark初识一、官网介绍1、什么是Spark官网地址:http://spark.apache.org/Apache Spark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看,Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、...转载 2018-08-08 09:20:07 · 728 阅读 · 1 评论 -
Spark修炼之道(进阶篇)——Spark入门到精通:第十五节 Kafka 0.8.2.1 集群搭建
作者:周志湖 微信号:zhouzhihubeyond本节为下一节Kafka与Spark Streaming做铺垫主要内容1.kafka 集群搭建1. kafka 集群搭建 kafka 安装与配置 到下面的地址下载:Scala 2.10 - kafka_2.10-0.8.2.1.tgz http://kafka.apache.org/downloads.html 下载...转载 2018-09-14 17:44:24 · 185 阅读 · 0 评论 -
Spark修炼之道(进阶篇)——Spark入门到精通:第十四节 Spark Streaming 缓存、Checkpoint机制
作者:周志湖 微信号:zhouzhihubeyond主要内容本节内容基于官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.htmlSpark Stream 缓存 Checkpoint 案例1. Spark Stream 缓存通过前面一系列的课程介绍,我们知道DStream是由一系列的RD...转载 2018-09-14 17:44:32 · 197 阅读 · 0 评论 -
Spark修炼之道(进阶篇)——Spark入门到精通:第十三节 Spark Streaming—— Spark SQL、DataFrame与Spark Streaming
主要内容Spark SQL、DataFrame与Spark Streaming1. Spark SQL、DataFrame与Spark Streaming源码直接参照:https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/streaming/SqlNetw...转载 2018-09-14 17:44:40 · 777 阅读 · 0 评论 -
Spark修炼之道(进阶篇)——Spark入门到精通:第十二节 Spark Streaming—— DStream Window操作
作者:周志湖 微信号:zhouzhihubeyond本节主要内容Window Operation 入门案例1. Window OperationSpark Streaming提供窗口操作(Window Operation),如下图所示: 上图中,红色实线表示窗口当前的滑动位置,虚线表示前一次窗口位置,窗口每滑动一次,落在该窗口中的RDD被一起同时处理,生成一个窗口DStream...转载 2018-09-14 17:44:48 · 264 阅读 · 0 评论 -
Spark修炼之道(进阶篇)——Spark入门到精通:第十一节 Spark Streaming—— DStream Transformation操作
本节主要内容本节部分内容来自官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.htmlDStream Transformation操作1. Transformation操作Transformation Meaning map(func) 对DStream中的各个元素进行func函数...转载 2018-09-14 17:44:55 · 173 阅读 · 0 评论 -
Spark修炼之道(进阶篇)——Spark入门到精通:第十节 Spark Streaming(一)
本节主要内容本节部分内容来自官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.html#mllib-operationsSpark流式计算简介 Spark Streaming相关核心类 入门案例1. Spark流式计算简介Hadoop的MapReduce及Spark SQL等只能进行离线计算,...转载 2018-08-13 08:54:56 · 368 阅读 · 0 评论 -
Spark修炼之道(进阶篇)——Spark入门到精通:第九节 Spark SQL运行流程解析
1.整体运行流程使用下列代码对SparkSQL流程进行分析,让大家明白LogicalPlan的几种状态,理解SparkSQL整体执行流程// sc is an existing SparkContext.val sqlContext = new org.apache.spark.sql.SQLContext(sc)// this is used to implicitly conve...转载 2018-08-13 08:53:36 · 494 阅读 · 0 评论 -
Spark修炼之道(进阶篇)——Spark入门到精通:第八节 Spark SQL与DataFrame(一)
本节主要内宾Spark SQL简介 DataFrame1. Spark SQL简介Spark SQL是Spark的五大核心模块之一,用于在Spark平台之上处理结构化数据,利用Spark SQL可以构建大数据平台上的数据仓库,它具有如下特点: (1)能够无缝地将SQL语句集成到Spark应用程序当中 (2)统一的数据访问方式 DataFrames and SQL provide...转载 2018-08-13 08:51:33 · 553 阅读 · 0 评论 -
Spark修炼之道(进阶篇)——Spark入门到精通:第七节 Spark运行原理
作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond本节主要内容Spark运行方式 Spark运行原理解析本节内容及部分图片来自: http://blog.csdn.net/book_mmicky/article/details/25714419 http://blog.csdn.net/yirenboy/article/details/47441465 这两篇...转载 2018-08-13 08:50:21 · 294 阅读 · 0 评论 -
Spark修炼之道(进阶篇)——Spark入门到精通:第六节 Spark编程模型(三)
作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond本节主要内容RDD transformation(续) RDD actions1. RDD transformation(续)(1)repartitionAndSortWithinPartitions(partitioner) repartitionAndSortWithinPartitions函数是rep...转载 2018-08-13 08:48:46 · 349 阅读 · 0 评论 -
Spark修炼之道(进阶篇)——Spark入门到精通:第五节 Spark编程模型(二)
作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond本文主要内容RDD 常用Transformation函数1. RDD 常用Transformation函数(1)union union将两个RDD数据集元素合并,类似两个集合的并集 union函数参数: /** * Return the union of this RDD and another...转载 2018-08-13 08:46:58 · 441 阅读 · 0 评论 -
Spark修炼之道(进阶篇)——Spark入门到精通:第四节 Spark编程模型(一)
作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond本节主要内容Spark重要概念 弹性分布式数据集(RDD)基础1. Spark重要概念本节部分内容源自官方文档:http://spark.apache.org/docs/latest/cluster-overview.html(1)Spark运行模式目前最为常用的Spark运行模式有: - loca...转载 2018-08-13 08:44:38 · 374 阅读 · 0 评论 -
Spark修炼之道(进阶篇)——Spark入门到精通:第三节 Spark Intellij IDEA开发环境搭建
作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond本节主要内容Intellij IDEA 14.1.4开发环境配置 Spark应用程序开发1. Intellij IDEA 14.1.4开发环境配置Intellij IDEA 功能十分强大,能够开发JAVA、Scala等相关应用程序,在依赖管理 智能提示等方面做到了极致,大家可以到:http://www.je...转载 2018-08-13 08:43:57 · 304 阅读 · 0 评论 -
Spark修炼之道(进阶篇)——Spark入门到精通:第二节 Hadoop、Spark生成圈简介
作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond本节主要内容Hadoop生态圈 Spark生态圈1. Hadoop生态圈原文地址:http://os.51cto.com/art/201508/487936_all.htm#rd?sukey=a805c0b270074a064cd1c1c9a73c1dcc953928bfe4a56cc94d6f67793fa...转载 2018-08-13 08:43:11 · 679 阅读 · 0 评论 -
Spark修炼之道(进阶篇)——Spark入门到精通:第一节 Spark 1.5.0集群搭建
作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond本节主要内容操作系统环境准备 Hadoop 2.4.1集群搭建 Spark 1.5.0 集群部署注:在利用CentOS 6.5操作系统安装spark 1.5集群过程中,本人发现Hadoop 2.4.1集群可以顺利搭建,但在Spark 1.5.0集群启动时出现了问题(可能原因是64位操作系统原因,源码需要重新编译...转载 2018-08-13 08:41:00 · 682 阅读 · 0 评论 -
Spark修炼之道(进阶篇)——Spark入门到精通:第十六节 Spark Streaming与Kafka
作者:周志湖主要内容Spark Streaming与Kafka版的WordCount示例(一) Spark Streaming与Kafka版的WordCount示例(二)1. Spark Streaming与Kafka版本的WordCount示例 (一)启动kafka集群root@sparkslave02:/hadoopLearning/kafka_2.10-0.8.2.1# ...转载 2018-09-14 17:44:13 · 242 阅读 · 0 评论