Spark技术咖-CSDN博客

原创【Spark开发必备技能】1-必备技能总概

基于Java语言的Spark算子开发，只需要学习如下内容，就可以着手开发啦！！！技能用途优先级学习教程学习内容 Spark生态圈介绍Spark提供的离线和实时处理技术选修《Spark生态圈》了解Spark的分布式计算能力，便于实际场景的技术选型运行环境配置 JDK、IDEA和Maven必须安...

2018-07-19 17:54:19 716

原创【秒懂StructuredStreaming】手把手教你写StructuredStreaming + Kafka程序

上一篇博客《StructuredStreaming是何方神圣》已经介绍了StructuredStreaming的相关概念，这篇博客我们介绍基于StructuredStreaming进行实时流算子开发，并将结果输出到kafka中。 StructuredStreaming使用的数据类型是DataFrame和Dataset。从Spark 2.0开始，DataFra...

2018-08-16 20:53:01 21377 32

原创【秒懂StructuredStreaming】StructuredStreaming是何方神圣

目录一、为何要有StructuredStreaming二、StructuredStreaming的特性1、结构化流式处理2、基于Event-Time聚合&延迟数据处理3、容错性Structured Streaming是Spark新提出的一种实时流的框架，以前是Spark Streaming。那么这两者有什么区别呢，为什么有了Spark Streaming，还要提出S...

2018-08-16 20:39:05 13136 2

原创 Spark作业提交到集群执行详解

Spark作业提交到集群的命令格式如下./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<value> \ ... # other optio...

2018-08-16 20:15:20 2262

转载 Spark运行原理【史上最详细】

Spark应用程序以进程集合为单位在分布式集群上运行，通过driver程序的main方法创建的SparkContext对象与集群交互。1、Spark通过SparkContext向Cluster manager(资源管理器)申请所需执行的资源（cpu、内存等）2、Cluster manager分配应用程序执行需要的资源，在Worker节点上创建Executor3、SparkContext...

2018-08-16 19:00:42 29891 8

原创 Spark相关技术精华贴URL集锦

Hadoop2.7.3+Spark2.1.0 standalone完全分布式集群搭建过程：https://www.cnblogs.com/zengxiaoliang/p/6478859.htmlSpark运行原理剖析：http://www.sohu.com/a/217196727_100065429配置Log4j(很详细)：https://blog.csdn.net/azheng270/a...

2018-08-14 11:57:17 521

原创【Spark开发必备技能】8-App安装量算子开发示例(DataFrame)

目录1、创建Maven工程2、引入Spark依赖包、创建本地测试文件4、编写spark代码5、运行程序，得出结果6、作业提交到集群运行1、创建Maven工程 IDEA中，新建Maven工程，用于项目依赖包管理和项目构建等 2、引入Spark依赖包配置pom.xml文件，引入maven中心仓库地址、新增Spark依赖包配置和任务的构建...

2018-07-19 17:27:47 232

原创【Spark开发必备技能】7-WordCount算子开发示例(RDD)

目录1、创建Maven工程2、引入Spark依赖包3、创建本地测试文件4、编写spark代码5、运行程序，得出结果6、作业提交到集群运行1、创建Maven工程 IDEA中，新建Maven工程，用于项目依赖包管理和项目构建等 2、引入Spark依赖包配置pom.xml文件，引入maven中心仓库地址、新增Spark依赖包配置和任务的构建...

2018-07-19 17:26:04 530

原创【Spark开发必备技能】6-4-RDD/Dataset/DataFrame-Dataset常用方法

目录1、Dataset方法综述2、Dataset创建3、Encoder类创建4、Dataset方法5、Dataset转RDD1、Dataset方法综述 Dataset是从Spark 1.6开始引入的一个新的数据类型，当时还是处于alpha版本；然而在Spark 2.0，它已经变成稳定版了。 Dataset存储的是强类型的数据（如Dataset<St...

2018-07-19 17:14:09 2020

原创【Spark开发必备技能】6-3-RDD/Dataset/DataFrame-DataFrame常用方法

目录1、DataFrame方法综述2、DataFrame的创建3、类SQL方法4、SQL语句查询 5、与JDBC交互6、DataFrame转Dataset1、DataFrame方法综述 a、提供类SQL的函数，如select、group、count、filter等，让用户方便对数据进行操作。Spark SQL 会将这些操作转化成RDD的操作，在Spark Co...

2018-07-19 17:10:40 2332

原创【Spark开发必备技能】6-2-RDD/Dataset/DataFrame-RDD常用方法

目录1、RDD方法综述2、RDD创建3、transformations转换方法4、actions操作方法5、RDD持久化方法6、共享变量Broadcast和Accumulator7、RDD转DataFrame1、RDD方法综述 a、RDD共包含两种计算方式，一种是transformations转换，一种是actions操作，每种计算方式包含一些常用的方法。...

2018-07-18 19:52:07 995 7

原创【Spark开发必备技能】6-1-RDD/Datase/DataFrame-三者定义和关系

目录1、RDD是什么2、Dataset是什么3、DataFrame是什么4、使用时候怎么选5、三者的入口类6、三者的转化Spark共提供3种基本的数据类型，分别是Spark Core引擎对应的RDD，以及Spark SQL引擎对应的DataFrame 和 DataSet。那么三种数据类型的定义是什么，他们有什么区别呢？1、RDD是什么分片的集合 ...

2018-07-18 19:48:37 836

原创【Spark开发必备技能】5-3-Maven项目管理-命令行管理Maven工程

常用的命令 1、打包 mvn package　　--生成压缩文件：java项目#jar包；web项目#war包，放在target目录下 2、清理 mvn clean　　　 --删除target目录 3、安装　　mvn install　　　--将压缩文件(jar或者war)上传到本地仓库...

2018-07-18 19:42:58 231

原创【Spark开发必备技能】5-2-Maven项目管理-新增依赖包配置

目录1、Maven中心储存库查询依赖包信息2、修改pom.xml，新增依赖包配置1、Maven中心储存库查询依赖包信息 URL:http://mvnrepository.com a、比如想添加MySql JDBC的依赖jar包，可以搜索“MySql JDBC”，得到如下图 b、点击进去，可以看到所有版本 c、假设我们选择8...

2018-07-18 19:40:28 729

原创【Spark开发必备技能】5-1-Maven项目管理-pom.xml配置项详解

目录1、项目坐标和信息描述2、引入依赖的JAR包 2.1、剔除想要排除的JAR包3、构建项目4、资源库一个基本项目的pom.xml文件，通常至少包含以下4个部分：1、项目坐标和信息描述项目坐标：指的是项目在maven资源库的坐标，通过 groupId + artifactId + version 进行表示。 grou...

2018-07-18 19:37:58 746

原创【Spark开发必备技能】4-2-IDEA工具使用-开启Terminal

IDEA的Terminal可以进行命令行操作，常见的如git命令操作，maven命令操作等

2018-07-18 19:32:55 264

原创【Spark开发必备技能】4-1-IDEA工具使用-创建Maven工程

IDEA进行Maven工程的创建步骤如下：1、选择 File->New->Project 2、选择左侧的Maven，然后关联工程对应的JDK，点击下一步 3、配置maven工程信息，点击Next 4、设置工程模块名和存放的位置，点击Finish，完成创建 5、完成后，得到如下图，可以看到，创建过程中配置的groupId、art...

2018-07-18 19:31:33 335

原创【Spark开发必备技能】3-3-运行环境配置-Maven安装

1、Maven是什么 Maven是一个项目管理工具，采用项目对象模型（POM）来管理项目。所有的项目信息都被定义在一个 pom.xml 文件中，通过该文件进行项目依赖包的管理和项目构建等。2、Windows下Maven的安装 URL：http://maven.apache.org/download.cgi a、下载需要的安装包 b...

2018-07-18 19:29:05 574

原创【Spark开发必备技能】3-2-运行环境配置-IDEA安装

1、IDEA是什么 IDEA是主流的Java集成开发工具，它提供了一系列最实用的的工具组合：智能编码辅助和编码检查等。 IDEA把Java开发人员从一些耗时的常规工作中解放出来，显著地提高了开发效率。2、IDEA安装 URL: https://www.jetbrains.com/idea/download/#section=mac a、选择相应的mac...

2018-07-18 19:27:45 323

原创【Spark开发必备技能】3-1-运行环境配置-JDK安装

目录1、Windows JDK安装 1.1 下载JDK-1.8 1.2 双击安装 1.3 环境变量配置 1.4 验证结果2、Mac JDK安装 2.1 下载JDK-1.8 2.2 双击开始安装 2.3 JDK安装目录查看 2.4 结果验证3、Windows Hadoop环境配置 ...

2018-07-18 19:22:08 940

原创【Spark开发必备技能】2-Spark生态圈

Spark生态圈架构图 1、Spark通用性较强 Spark生态圈包含了Spark Core、Spark SQL、MLLib、GraphX、Spark Streaming和Spark Structured Streaming等组件，提供离线计算、实时计算、图形化处理和机器学习等能力，能够无缝的集成并提供一站式解决方案。Spark Core：包含Spark的基本功能；尤其...

2018-07-13 13:26:28 1519

Spark技术咖的博客