![](https://img-blog.csdnimg.cn/20191028095535636.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark
趣学程序-shaofeer
爱生活,爱程序。趣学程序!我在这里分享我的学习记录以及学习笔记!
展开
-
Spark入门第一步:WordCount之java版、Scala版
Spark入门第一步:WordCount之java版、Scala版Spark入门系列,第一步,编写WordCount程序。我们分别使用java和scala进行编写,从而比较二者的代码量数据文件 通过读取下面的文件内容,统计每个单词出现的次数java scala python androidspark storm spout boltkafka MQelasticsearch lo...原创 2019-10-27 00:17:33 · 405 阅读 · 0 评论 -
Spark学习之第一个程序 WordCount
WordCount程序求下列文件中使用空格分割之后,单词出现的个数input.txtjava scala python hello worldjava pyfysf upuptop wintp topsfok sf sf sf java android sf pyfysf upuptop pyfysf upuptop java android sparkhello worl...原创 2019-07-01 23:51:35 · 518 阅读 · 0 评论 -
Spark学习之RDD
RDD概述什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。在 Spark 中,对数据的所有操作不外乎创建 RDD、转化已有RDD 以及调用 RDD 操作进行求值。每个 RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD 可以包含 Pyth...转载 2019-07-02 00:01:05 · 557 阅读 · 0 评论 -
创建RDD
RDD创建在Spark中创建RDD的创建方式大概可以分为三种:从集合中创建RDD;从外部存储创建RDD;从其他RDD创建。由一个已经存在的Scala集合创建,集合并行化,而从集合中创建RDD,Spark主要提供了两种函数:parallelize和makeRDD。val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8))两个函数的声明def...转载 2019-07-02 00:06:25 · 327 阅读 · 0 评论