Spark 大数据
文章平均质量分 77
Spark 大数据 日常学习记录
梦里藍天
不积跬步,无以至千里;不积小流,无以成江海
展开
-
Spark双集合(RDD)之间的操作-差集,交集,合集,笛卡尔积等
def main(args:Array[String]){ // 1. 创建 SparkConf对象, 并设置 App名字 val conf:SparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount"); // 2. 创建SparkContext对象 val sc = new SparkContext(conf); // 3. 使用sc创建RD原创 2020-09-28 20:24:26 · 2025 阅读 · 0 评论 -
Spark常用转换因子介绍
Map(f):作用:使RDD数据集合中的每一个数据与另一个数据组合,返回最终组合后的新的RDD;var res = Array(10,30,40,60,80,90,56,5,9);var rdd = res.map((_,1));结果:(10,1)(30,1)(40,1)(60,1)(80,1)(90,1)(56,1)(5,1)(9,1)原创 2020-09-20 07:33:56 · 1414 阅读 · 0 评论 -
Could not locate executable null\bin\winutils.exe in the Hadoop binaries
如果没有下载配置hadoop先下载配置下载地址:https://hadoop.apache.org/releases.html请继续看后面在操作。下载winutils下载地址:https://github.com/SirMin/winutils一定看好winutils 支持哪些hadoop版本,我最先下载的hadoop2.10.0,winutils没有支持的,我也没测试2.9.2的是否在2.10里能用,又下的hadoop2.9.2!!!这是我目前发现的支持hadoop最全的一个开源版本了。下载.原创 2020-09-16 18:40:25 · 310 阅读 · 0 评论 -
Eclipse开发Spark WordCount项目
前期的准备Eclipse安装Scala IDE,为Spark开发测试准备 ,请先安装Scala IDE。新建项目转换为maven项目:配置pom.xml<dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <原创 2020-09-16 18:26:25 · 636 阅读 · 0 评论 -
Eclipse安装Scala IDE,为Spark开发测试准备
Scala介绍Scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala 运行在Java虚拟机上,并兼容现有的Java程序。Scala 源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库。Scala需要运行在JVM上,所以首先要安装Java环境,配置系统环境变量,此处省略安装过程,配置好后使用控制台输入Java -version输出版本号即为安装正确。Eclipse安装Scala IDE原创 2020-09-16 18:08:07 · 1244 阅读 · 0 评论 -
Spark入门(2)-Spark-Shell WordCount 单词统计
Spark-shell 是 Spark 给我们提供的交互式命令窗口,类似Linux的shell命令窗口。启动spark进入spark安装包,右键选择【在终端中打开】,使用的深度Linux系统。输入启动命令:./bin/spark-shell可以通过IP:端口的形式查看spark web。制作2个英文单词文件我们就以spark启动的日志制作2个因为单词文件test1.txt于test2.txt。Using Spark's default log4j profile: org/apache/原创 2020-09-01 21:48:34 · 1096 阅读 · 0 评论 -
Spark入门(1)-安装并本地模式运行官方事例 计算PI
下载spark包https://archive.apache.org/dist/spark/解压安装包我是用的是深度的Linux系统,解压,复制,粘贴和window一样,双击+右键就可以,把上面的压缩包解压后复制到任意文件夹。运行官方事例,计算PI的值首先进入spark的解压缩包内,右键选择 在终端打开,或者使用CD命令进入。输入下列命令,最后回车bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master loc原创 2020-09-01 00:00:07 · 1816 阅读 · 0 评论