- 博客(16)
- 收藏
- 关注
原创 【Spark开发必备技能】1-必备技能总概
基于Java语言的Spark算子开发,只需要学习如下内容,就可以着手开发啦!!! 技能 用途 优先级 学习教程 学习内容 Spark生态圈 介绍Spark提供的离线和实时处理技术 选修 《Spark生态圈》 了解Spark的分布式计算能力,便于实际场景的技术选型 运行环境配置 JDK、IDEA和Maven必须安...
2018-07-19 17:54:19 727
原创 【Spark开发必备技能】8-App安装量算子开发示例(DataFrame)
目录 1、创建Maven工程 2、引入Spark依赖包 、创建本地测试文件 4、编写spark代码 5、运行程序,得出结果 6、作业提交到集群运行 1、创建Maven工程 IDEA中,新建Maven工程,用于项目依赖包管理和项目构建等 2、引入Spark依赖包 配置pom.xml文件,引入maven中心仓库地址、新增Spark依赖包配置和任务的构建...
2018-07-19 17:27:47 239
原创 【Spark开发必备技能】7-WordCount算子开发示例(RDD)
目录 1、创建Maven工程 2、引入Spark依赖包 3、创建本地测试文件 4、编写spark代码 5、运行程序,得出结果 6、作业提交到集群运行 1、创建Maven工程 IDEA中,新建Maven工程,用于项目依赖包管理和项目构建等 2、引入Spark依赖包 配置pom.xml文件,引入maven中心仓库地址、新增Spark依赖包配置和任务的构建...
2018-07-19 17:26:04 538
原创 【Spark开发必备技能】6-4-RDD/Dataset/DataFrame-Dataset常用方法
目录 1、Dataset方法综述 2、Dataset创建 3、Encoder类创建 4、Dataset方法 5、Dataset转RDD 1、Dataset方法综述 Dataset是从Spark 1.6开始引入的一个新的数据类型,当时还是处于alpha版本;然而在Spark 2.0,它已经变成稳定版了。 Dataset存储的是强类型的数据(如Dataset<St...
2018-07-19 17:14:09 2033
原创 【Spark开发必备技能】6-3-RDD/Dataset/DataFrame-DataFrame常用方法
目录 1、DataFrame方法综述 2、DataFrame的创建 3、类SQL方法 4、SQL语句查询 5、与JDBC交互 6、DataFrame转Dataset 1、DataFrame方法综述 a、提供类SQL的函数,如select、group、count、filter等,让用户方便对数据进行操作。Spark SQL 会将这些操作转化成RDD的操作,在Spark Co...
2018-07-19 17:10:40 2340
原创 【Spark开发必备技能】6-2-RDD/Dataset/DataFrame-RDD常用方法
目录 1、RDD方法综述 2、RDD创建 3、transformations转换方法 4、actions操作方法 5、RDD持久化方法 6、共享变量Broadcast和Accumulator 7、RDD转DataFrame 1、RDD方法综述 a、RDD共包含两种计算方式,一种是transformations转换,一种是actions操作,每种计算方式包含一些常用的方法。...
2018-07-18 19:52:07 1004 7
原创 【Spark开发必备技能】6-1-RDD/Datase/DataFrame-三者定义和关系
目录 1、RDD是什么 2、Dataset是什么 3、DataFrame是什么 4、使用时候怎么选 5、三者的入口类 6、三者的转化 Spark共提供3种基本的数据类型,分别是Spark Core引擎对应的RDD,以及Spark SQL引擎对应的DataFrame 和 DataSet。 那么三种数据类型的定义是什么,他们有什么区别呢? 1、RDD是什么 分片的集合 ...
2018-07-18 19:48:37 841
原创 【Spark开发必备技能】5-3-Maven项目管理-命令行管理Maven工程
常用的命令 1、打包 mvn package --生成压缩文件:java项目#jar包;web项目#war包,放在target目录下 2、清理 mvn clean --删除target目录 3、安装 mvn install --将压缩文件(jar或者war)上传到本地仓库...
2018-07-18 19:42:58 238
原创 【Spark开发必备技能】5-2-Maven项目管理-新增依赖包配置
目录 1、Maven中心储存库查询依赖包信息 2、修改pom.xml,新增依赖包配置 1、Maven中心储存库查询依赖包信息 URL:http://mvnrepository.com a、比如想添加MySql JDBC的依赖jar包,可以搜索“MySql JDBC”,得到如下图 b、点击进去,可以看到所有版本 c、假设我们选择8...
2018-07-18 19:40:28 741
原创 【Spark开发必备技能】5-1-Maven项目管理-pom.xml配置项详解
目录 1、项目坐标和信息描述 2、引入依赖的JAR包 2.1、剔除想要排除的JAR包 3、构建项目 4、资源库 一个基本项目的pom.xml文件,通常至少包含以下4个部分: 1、项目坐标和信息描述 项目坐标: 指的是项目在maven资源库的坐标,通过 groupId + artifactId + version 进行表示。 grou...
2018-07-18 19:37:58 755
原创 【Spark开发必备技能】4-2-IDEA工具使用-开启Terminal
IDEA的Terminal可以进行命令行操作,常见的如git命令操作,maven命令操作等
2018-07-18 19:32:55 270
原创 【Spark开发必备技能】4-1-IDEA工具使用-创建Maven工程
IDEA进行Maven工程的创建步骤如下: 1、选择 File->New->Project 2、选择左侧的Maven,然后关联工程对应的JDK,点击下一步 3、配置maven工程信息,点击Next 4、设置工程模块名和存放的位置,点击Finish,完成创建 5、完成后,得到如下图,可以看到,创建过程中配置的groupId、art...
2018-07-18 19:31:33 342
原创 【Spark开发必备技能】3-3-运行环境配置-Maven安装
1、Maven是什么 Maven是一个项目管理工具,采用项目对象模型(POM)来管理项目。 所有的项目信息都被定义在一个 pom.xml 文件中,通过该文件进行项目依赖包的管理和项目构建等。 2、Windows下Maven的安装 URL:http://maven.apache.org/download.cgi a、下载需要的安装包 b...
2018-07-18 19:29:05 582
原创 【Spark开发必备技能】3-2-运行环境配置-IDEA安装
1、IDEA是什么 IDEA是主流的Java集成开发工具,它提供了一系列最实用的的工具组合:智能编码辅助和编码检查等。 IDEA把Java开发人员从一些耗时的常规工作中解放出来,显著地 提高了开发效率。 2、IDEA安装 URL: https://www.jetbrains.com/idea/download/#section=mac a、选择相应的mac...
2018-07-18 19:27:45 329
原创 【Spark开发必备技能】3-1-运行环境配置-JDK安装
目录 1、Windows JDK安装 1.1 下载JDK-1.8 1.2 双击安装 1.3 环境变量配置 1.4 验证结果 2、Mac JDK安装 2.1 下载JDK-1.8 2.2 双击开始安装 2.3 JDK安装目录查看 2.4 结果验证 3、Windows Hadoop环境配置 ...
2018-07-18 19:22:08 951
原创 【Spark开发必备技能】2-Spark生态圈
Spark生态圈架构图 1、Spark通用性较强 Spark生态圈包含了Spark Core、Spark SQL、MLLib、GraphX、Spark Streaming和Spark Structured Streaming等组件,提供离线计算、实时计算、图形化处理和机器学习等能力,能够无缝的集成并提供一站式解决方案。 Spark Core:包含Spark的基本功能;尤其...
2018-07-13 13:26:28 1536
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人