【Spark开发必备技能】1-必备技能总概

基于Java语言的Spark算子开发,只需要学习如下内容,就可以着手开发啦!!! 技能 用途 优先级 学习教程 学习内容 Spark生态圈 介绍Spark提供的离线和实时处理技术 选修 《Spark生态圈》 了解Spark的分布式计算能力,便于...

2018-07-19 17:54:19

阅读数 292

评论数 0

【秒懂StructuredStreaming】手把手教你写StructuredStreaming + Kafka程序

      上一篇博客《StructuredStreaming是何方神圣》已经介绍了StructuredStreaming的相关概念,这篇博客我们介绍基于StructuredStreaming进行实时流算子开发,并将结果输出到kafka中。       StructuredStreaming使用...

2018-08-16 20:53:01

阅读数 5540

评论数 6

【秒懂StructuredStreaming】StructuredStreaming是何方神圣

目录 一、为何要有StructuredStreaming 二、StructuredStreaming的特性 1、结构化流式处理 2、基于Event-Time聚合&延迟数据处理 3、容错性 Structured Streaming是Spark新提出的一种实时流的框...

2018-08-16 20:39:05

阅读数 4410

评论数 0

Spark作业提交到集群执行详解

Spark作业提交到集群的命令格式如下 ./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-...

2018-08-16 20:15:20

阅读数 376

评论数 0

Spark运行原理【史上最详细】

Spark应用程序以进程集合为单位在分布式集群上运行,通过driver程序的main方法创建的SparkContext对象与集群交互。 1、Spark通过SparkContext向Cluster manager(资源管理器)申请所需执行的资源(cpu、内存等) 2、Cluster manage...

2018-08-16 19:00:42

阅读数 2556

评论数 0

Spark相关技术精华贴URL集锦

Hadoop2.7.3+Spark2.1.0 standalone完全分布式集群搭建过程:https://www.cnblogs.com/zengxiaoliang/p/6478859.html Spark运行原理剖析:http://www.sohu.com/a/217196727_100065...

2018-08-14 11:57:17

阅读数 157

评论数 0

【Spark开发必备技能】8-App安装量算子开发示例(DataFrame)

目录 1、创建Maven工程 2、引入Spark依赖包 ​、创建本地测试文件 4、编写spark代码 5、运行程序,得出结果 6、作业提交到集群运行 1、创建Maven工程     IDEA中,新建Maven工程,用于项目依赖包管理和项目构建等      2、引入Spark依赖...

2018-07-19 17:27:47

阅读数 82

评论数 0

【Spark开发必备技能】7-WordCount算子开发示例(RDD)

目录 1、创建Maven工程 2、引入Spark依赖包 3、创建本地测试文件 4、编写spark代码 5、运行程序,得出结果 6、作业提交到集群运行 1、创建Maven工程     IDEA中,新建Maven工程,用于项目依赖包管理和项目构建等      2、引入Spark依赖...

2018-07-19 17:26:04

阅读数 145

评论数 0

【Spark开发必备技能】6-4-RDD/Dataset/DataFrame-Dataset常用方法

目录 1、Dataset方法综述 2、Dataset创建 3、Encoder类创建 4、Dataset方法 5、Dataset转RDD 1、Dataset方法综述     Dataset是从Spark 1.6开始引入的一个新的数据类型,当时还是处于alpha版本;然而在Spark 2...

2018-07-19 17:14:09

阅读数 677

评论数 0

【Spark开发必备技能】6-3-RDD/Dataset/DataFrame-DataFrame常用方法

目录 1、DataFrame方法综述 2、DataFrame的创建 3、类SQL方法 4、SQL语句查询  5、与JDBC交互 6、DataFrame转Dataset 1、DataFrame方法综述     a、提供类SQL的函数,如select、group、count、filte...

2018-07-19 17:10:40

阅读数 736

评论数 0

【Spark开发必备技能】6-2-RDD/Dataset/DataFrame-RDD常用方法

目录 1、RDD方法综述 2、RDD创建 3、transformations转换方法 4、actions操作方法 5、RDD持久化方法 6、共享变量Broadcast和Accumulator 7、RDD转DataFrame 1、RDD方法综述     a、RDD共包含两种计算方式...

2018-07-18 19:52:07

阅读数 384

评论数 7

【Spark开发必备技能】6-1-RDD/Datase/DataFrame-三者定义和关系

目录 1、RDD是什么 2、Dataset是什么 3、DataFrame是什么 4、使用时候怎么选 5、三者的入口类 6、三者的转化 Spark共提供3种基本的数据类型,分别是Spark Core引擎对应的RDD,以及Spark SQL引擎对应的DataFrame 和 DataSet...

2018-07-18 19:48:37

阅读数 251

评论数 0

【Spark开发必备技能】5-3-Maven项目管理-命令行管理Maven工程

常用的命令     1、打包         mvn package  --生成压缩文件:java项目#jar包;web项目#war包,放在target目录下               2、清理         mvn clean    --删除target目录     3、安装 ...

2018-07-18 19:42:58

阅读数 64

评论数 0

【Spark开发必备技能】5-2-Maven项目管理-新增依赖包配置

目录 1、Maven中心储存库查询依赖包信息 2、修改pom.xml,新增依赖包配置 1、Maven中心储存库查询依赖包信息     URL:http://mvnrepository.com     a、比如想添加MySql JDBC的依赖jar包,可以搜索“MySql JDBC”,得到...

2018-07-18 19:40:28

阅读数 183

评论数 0

【Spark开发必备技能】5-1-Maven项目管理-pom.xml配置项详解

目录 1、项目坐标和信息描述 2、引入依赖的JAR包     2.1、剔除想要排除的JAR包 3、构建项目 4、资源库 一个基本项目的pom.xml文件,通常至少包含以下4个部分: 1、项目坐标和信息描述     项目坐标:         指的是项目在maven资源库的坐标,通过...

2018-07-18 19:37:58

阅读数 138

评论数 0

【Spark开发必备技能】4-2-IDEA工具使用-开启Terminal

IDEA的Terminal可以进行命令行操作,常见的如git命令操作,maven命令操作等     

2018-07-18 19:32:55

阅读数 47

评论数 0

【Spark开发必备技能】4-1-IDEA工具使用-创建Maven工程

IDEA进行Maven工程的创建步骤如下: 1、选择 File->New->Project      2、选择左侧的Maven,然后关联工程对应的JDK,点击下一步      3、配置maven工程信息,点击Next      4、设置工程...

2018-07-18 19:31:33

阅读数 79

评论数 0

【Spark开发必备技能】3-3-运行环境配置-Maven安装

1、Maven是什么     Maven是一个项目管理工具,采用项目对象模型(POM)来管理项目。     所有的项目信息都被定义在一个 pom.xml 文件中,通过该文件进行项目依赖包的管理和项目构建等。 2、Windows下Maven的安装     URL:http://maven.a...

2018-07-18 19:29:05

阅读数 60

评论数 0

【Spark开发必备技能】3-2-运行环境配置-IDEA安装

1、IDEA是什么     IDEA是主流的Java集成开发工具,它提供了一系列最实用的的工具组合:智能编码辅助和编码检查等。     IDEA把Java开发人员从一些耗时的常规工作中解放出来,显著地 提高了开发效率。 2、IDEA安装     URL: https://www.jetbr...

2018-07-18 19:27:45

阅读数 50

评论数 0

【Spark开发必备技能】3-1-运行环境配置-JDK安装

目录 1、Windows JDK安装     1.1 下载JDK-1.8         1.2 双击安装     1.3 环境变量配置      1.4 验证结果 2、Mac JDK安装     2.1 下载JDK-1.8         2.2 双击开始安装     2.3 ...

2018-07-18 19:22:08

阅读数 184

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭