SparkCore>创建RDD

BigMoM1573

于 2020-04-11 16:58:18 发布

阅读量97

点赞数

分类专栏： SparkCore 文章标签： sparkcore

本文链接：https://blog.csdn.net/qq_44509920/article/details/105455365

版权

SparkCore 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1.由外部存储系统的数据集创建，包括本地的文件系统，还有所有Hadoop支持的数据集，比如HDFS、Cassandra、HBase等

val rdd1 = sc.textFile("hdfs://node01:8020/wordcount/input/words.txt")

2.通过已有的RDD经过算子转换生成新的RDD

val rdd2=rdd1.flatMap(_.split(" "))

3.由一个已经存在的Scala集合创建
从集合中创建RDD，Spark主要提供了两种函数：parallelize和makeRDD 创建

val rdd3 = sc.parallelize(Array(1,2,3,4,5,6,7,8))
//或者
val rdd4 = sc.makeRDD(List(1,2,3,4,5,6,7,8))

makeRDD方法底层调用了parallelize方法

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

BigMoM1573

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

sparkcore相关实例

04-08

RDD是Spark Core中最基本的数据抽象，它是不可变的、分区的记录集合。用户可以通过并行操作（如map、filter、reduceByKey等）对RDD进行计算。RDD支持容错，当某个节点失败时，可以从父RDD重新计算丢失的分区。 3. ...

Spark系列--SparkCore(二)RDD创建方式

淡淡的倔强的博客

07-12

1623

一、RDD的创建方式创建RDD的创建方式大概可以分为三种：从集合中创建RDD；从外部存储创建RDD；从其他RDD转换。 1.1 从集合中创建RDD** 从集合中创建RDD主要有下面两个方法：makeRDD和parallelize def makeRDD[T: ClassTag](seq: Seq[T],numSlices: Int = defaultParallelism...

参与评论您还未登录，请先登录后发表或查看评论

spark Core RDD持久化详解

03-23

尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验...

【SparkCore篇01】RDD编程入门1

08-04

2. 从外部存储系统中创建：支持HDFS、Cassandra、HBase等，直接读取数据创建RDD。 3. 从其他RDD转换：通过一系列的转换操作算子，如map、filter等，生成新的RDD。 Spark的编程模型基于Driver和Worker。Driver程序...

【SparkCore篇03】RDD行动算子1

08-04

Spark Core是Apache Spark的核心组件，它提供了一种分布式内存计算框架，用于处理大规模数据。在Spark中，RDD（Resilient Distributed Datasets）是基本的数据抽象，它是不可变、分区的记录集合，可以在集群的不同...

【SparkCore篇06】RDD数据分区1

08-04

在SparkCore篇06中，我们聚焦于RDD数据分区，这是优化Spark性能的关键因素之一。RDD的分区决定了数据如何在集群中的节点上分布，从而影响计算效率。首先，每个RDD都有一个唯一的分区ID，其范围是从0到...

javaweb项目进销存管理系统springboot+vue+redis idea导入 mysql数据库-java课程设计毕业设

10-18

该系统采用Spring Boot作为后端框架，Vue.js作为前端技术，集成Redis进行缓存管理，并使用MySQL数据库进行数据存储。此项目旨在为在校大学生的Java课程设计和毕业设计提供全面的学习参考与实践指导，同时为Java技术爱好者提供丰富的学习资料。帮助用户深入理解进销存管理系统的设计思路与实现方法。通过该源码，开发者可以掌握Spring Boot、Vue.js、Redis和MySQL的结合使用，提升全栈开发能力，是学习Java开发的重要实践材料，适合于进行个人项目或课程作业参考。

毕业设计论文SpringBoot助学兼职系统.docx

10-18

毕业设计论文

毕业设计论文SpringBoot智能菜谱推荐系统.docx

10-18

毕业设计论文

毕业设计论文SSM创新型产品提前购平台.docx

10-18

毕业设计论文

大语言模型微调，Qwen2和GLM4指令微调-LLM Finetune.zip

10-18

大语言模型微调，Qwen2和GLM4指令微调-LLM Finetune

3 GH7用（RH8字体大小显示不正常）模型内套图框.gh

10-18

3 GH7用（RH8字体大小显示不正常）模型内套图框.gh

MySQL8.0与5.7版本的下载、安装与配置详细视频教程，自己买的培训机构的课，5积分分享！

10-18

mysql安装教程

Kivy-2.0.0-cp38-cp38-win_amd64.whl

10-18

Kivy-2.0.0-cp38-cp38-win_amd64.whl

10-18

MATLAB实现基于CNN-LSTM卷积长短期记忆神经网络的时间序列预测（含完整的程序和代码详解）

10-18

内容概要：本文介绍了基于卷积长短期记忆神经网络（CNN-LSTM）的时间序列预测模型的设计与实现。该模型融合了CNN强大的特征提取能力和LSTM对于时间序列的预测优势，适用于处理具有时序特性的多维数据。项目通过多种性能评估指标以及用户友好的GUI界面来增强其实用性和准确性。适用人群：对时间序列预测感兴趣的初学者及有一定深度学习基础的研发人员。使用场景及目标：主要应用于金融市场预测、销量预测、气象数据分析和生产环境监控等领域，帮助用户理解时间序列的特性，提高模型预测精度。其他说明：项目实现了完整的模型构建、训练与评估流程，同时也强调了数据预处理的重要性，为后续的研究提供了参考。此外，还提出了几个可能的改进方向，比如引入注意力机制等高级技术以增加模型复杂性和适应性。

rhino犀牛超级圆角程序（附视频教程）