RDD简介，spark-shell，spark-submit提交任务简单示例

最新推荐文章于 2023-11-27 23:47:23 发布

yixl

最新推荐文章于 2023-11-27 23:47:23 发布

阅读量2.1k

点赞数 2

分类专栏：学习笔记文章标签： spark rdd spark-shell spark-submit

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31407011/article/details/85947081

版权

本文介绍了Spark中的核心概念——弹性分布式数据集(RDD)，包括其容错性和不可变性。通过实例展示了如何使用spark-shell读取数据，以及通过spark-submit提交Java WordCount任务到本地运行。详细步骤包括配置Spark环境，创建数据文件，使用transformations和actions操作RDD，以及理解不同master URL的含义。

摘要由CSDN通过智能技术生成

spark RDD简介
弹性分布式数据集RDD是Spark框架中的核心概念。可以将RDD视作数据库中的一张表。其中可以保存任何类型的数据。Spark将数据存储在不同分区上的RDD之中。
RDD可以帮助重新安排计算并优化数据处理过程。
RDD具有容错性，因为RDD知道如何重新创建和重新计算数据集。
RDD是不可变的。你可以用变换（Transformation）修改RDD，但是这个变换所返回的是一个全新的RDD，而原有的RDD仍然保持不变。
RDD 创建

2.1 官网下载spark-2.1.1-bin-hadoop2.6安装包，解压缩,配置jdk,spark
2.2 cat /etc/hosts 添加 127.0.0.1 主机名（hostname）
2.3 在服务器创建数据文件/tmp/ywx/test.txt，内容如下：
spark shell
hello world
hive hadoop mapreduce zookeeper
mapreduce zookeeper
hello world
world

使用spark-shell提交任务

spark-shell 方式提交任务

/tmp/ywx/test.txt
spark shell
hello world
hive hadoop mapreduce zookeeper
mapreduce zookeeper
hello world
world

ywx@suse114115:~/spark-2.1.1-bin-hadoop2.6/bin> ./spark-shell
Using Spark’s default log4j pr

最低0.47元/天解锁文章

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。