spark
KevinWDong
这个作者很懒,什么都没留下…
展开
-
SparkRDD函数详解(一)--RDD转换函数
1.什么是RDD RDD(Resilient Distributed Dataset),弹性分布式数据集,Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。在 Spark 中,对数据的所有操作不外乎创建 RDD、转化已有RDD 以及调用 RDD 操作进行求值。每个 RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD 可以包含 Python、Ja...原创 2019-01-17 21:12:37 · 2153 阅读 · 0 评论 -
SparkRDD函数详解(二)--RDD动作操作函数
相对于转换,动作(Action)操作用于向驱动(Driver)程序返回值或者将值写入到文件当中。reduce(func):通过func函数聚集RDD中的所有元素,这个功能必须是可交换且可并联的 val rdd1 = sc.makeRDD(1 to 10,2) rdd1.reduce(_+_)val rdd2 = sc.makeRDD(Array(("a",1),("a",3),("...原创 2019-01-19 22:48:06 · 906 阅读 · 0 评论 -
Spark的安装与配置
一、Spark 概述1.什么是sparkSpark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行编写。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、Graph...原创 2019-01-15 21:53:37 · 362 阅读 · 0 评论 -
第一个spark程序----WordCount
和hadoop一样,学习spark从WordCount开始。启动Spark Shellspark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序。执行命令 bin/spark-shell启动hdfs上传一个文档到hdfs编写WordCount在Spark shell中用scala语言编写spar...原创 2019-01-16 15:19:46 · 379 阅读 · 0 评论