-
spark RDD简介
弹性分布式数据集RDD是Spark框架中的核心概念。可以将RDD视作数据库中的一张表。其中可以保存任何类型的数据。Spark将数据存储在不同分区上的RDD之中。
RDD可以帮助重新安排计算并优化数据处理过程。
RDD具有容错性,因为RDD知道如何重新创建和重新计算数据集。
RDD是不可变的。你可以用变换(Transformation)修改RDD,但是这个变换所返回的是一个全新的RDD,而原有的RDD仍然保持不变。 -
RDD 创建
2.1 官网下载spark-2.1.1-bin-hadoop2.6安装包,解压缩,配置jdk,spark
2.2 cat /etc/hosts 添加 127.0.0.1 主机名(hostname)
2.3 在服务器创建数据文件/tmp/ywx/test.txt,内容如下:
spark shell
hello world
hive hadoop mapreduce zookeeper
mapreduce zookeeper
hello world
world
- 使用spark-shell提交任务
spark-shell 方式提交任务
/tmp/ywx/test.txt
spark shell
hello world
hive hadoop mapreduce zookeeper
mapreduce zookeeper
hello world
world
ywx@suse114115:~/spark-2.1.1-bin-hadoop2.6/bin> ./spark-shell
Using Spark’s default log4j pr