Spark java程序入门（二）创建RDD与查看RDD内容

最新推荐文章于 2023-03-13 10:05:21 发布

linj_

最新推荐文章于 2023-03-13 10:05:21 发布

阅读量6.4k

点赞数

文章标签： RDD spark java

本文链接：https://blog.csdn.net/h_e_l_l_o_h_i/article/details/52830017

版权

使用Spark需要RDD编程，而RDD编程的第一步就是构建RDD

有两种方法创建RDD

（1）从文件系统中直接读入一个外部数据集，一个简单的例子，比如

JavaRDD<String> input = sc.textFile("文件路径"); //文件路径的写法根据所使用的不同的文件系统有所变化

（2）从驱动器程序里分发对象集合。

有不少情况下，并不需要程序的每一步都使用RDD，或者要将一段已经写好的程序改成可以在Spark上运行的应用，这时就需要直接从驱动器程序里分发对象集合创建RDD。以利用List对象构建RDD为例，可以使用JavaSparkContext的parallelize方法.

要查看RDD内容有两种较为简单的办法

（1）写出到文件系统，即调用所使用的RDD的类中类似saveasTextFile()的方法，例如对于JavaPairRDD的对象x可以用 x.saveasTextFile("输出文件路径"):

（2）还可将RDD转回List处理查看：有take()方法和collect()方法，但是collect方法会将整个RDD内容集中，如果数据集过大，在网络传输和内存占用上都可能造成压力，如果只是要查看RDD中的几个值还是take方法较为合适。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

linj_

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Spark RDD

weixin_55988146的博客

06-23

441

JavaRDD 提供了多少种方法来操作数据

最新发布

qq_23827347的博客

08-21

715

Apache Spark 提供了丰富的 API 来操作数据，尤其是在JavaRDD类中。以下是JavaRDD提供的一些常用方法及其用途的总结。

参与评论您还未登录，请先登录后发表或查看评论

查看spark RDD 各分区内容

jasonwang_的博客

05-18

5531

mapPartitionsWithIndexdef mapPartitionsWithIndex[U](f: (Int, Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]): RDD[U]函数作用同mapPartitions，不过提供了两个参数，第一个...

Spark RDD 详细介绍

精益求精

09-13

1121

　　RDD(Resilent Distributed Datasets)俗称弹性分布式数据集,是Spark 底层的分布式存储的数据结构,可以说是 Spark 的核心, Spark API 的所有操作都是基于 RDD 的. 有容错机制并可以被并行操作的元素集合，具有只读、分区、容错、高效、无需物化、可以缓存、RDD依赖等特征。RDD只是数据集的抽象，分区内部并不会存储具体的数据。 R...

Spark——RDD操作详解

俺叫赵小邪的博客

11-22

9320

一、基本RDD 1、针对各个元素的转化操作最常用的转化操作是map()和filter()。转化操作map()J接收一个函数，把这个函数用于RDD中的每一个元素，将函数的返回结果作为结果RDD中对应元素。而转化操作filter()则接收一个函数，将RDD满足该函数的元素放入新的RDD中返回。map()的返回值类型不需要和输入类型一样。从一个RDD变成另外一个RDD。lazy，懒执行。比如根

spark编程模型（一）之RDD的类型

08-11

1338

spark中的RDD操作类型可以分为四类：创建操作（creation）、转换操作（transformation）、控制操作（control）、行为操作（action）创建操作(Creation Operation) 主要用于创建RDD。创建RDD的两种方法，一种是parallelize或者makeRDD一个已存在的集合，另一种是在外部存储系统（比如HDFS、HBASE）中引用一个数据...

java spark 遍历rdd_Spark入门（四）：RDD基本操作

weixin_29958797的博客

02-27

2350

1.RDD转换RDD的所有转换操作都不会进行真正的计算1.1单个RDD转换操作# 创建测试RDDval rdd = sc.parallelize(Array("hello world","java","scala easy"))# 1.map():遍历RDD中的每个元素，将返回值构成新的RDD，返回值类型可和原RDD不一致val mapRdd = rdd.map(x => "map:"+x)...

Java接入Spark之创建RDD的两种方式和操作RDD

热门推荐

至道

06-02

4万+

Java接入Spark之创建RDD的两种方式和操作RDD

Spark入门篇——RDD与算子

真一居士的博客

10-16

475

目录 RDD与算子简介创建RDD 集合并行化外部文件系统创建父类RDD转换成新的子RDD RDD的属性 RDD的分区 RDD编程 RDD算子 Transformation Action RDD与算子简介 RDD（Redilient Distrobuted Dataset）是Spark的计算模型，叫做弹性的分布式数据集，是Spark中最基本的数据抽象，它代表...

大数据分布式计算系统 Spark 入门核心之 RDD

weixin_44433834的博客

03-22

522

Apache Spark 是一个快速且通用的集群计算系统。提供 Java、Scala、Python 和 R 中的高级 API，以及支持通用执行图的优化引擎。它还支持一组丰富的高级工具，包括用于 SQL 和结构化数据处理的 Spark SQL、用于机器学习的 MLlib、用于图形处理的 GraphX 和 Spark St ...

Spark之RDD（看这一篇就够了~）

wanjialin的博客

12-10

1097

什么是RDD？： RDD：弹性分布式数据集，是Spark中最基本的数据抽象。特点：弹性、分布式、数据集、数据抽象、不可变。特性： 1、A list of partitions（一组分区）分区可以看成是数据集的基本组成单位，对于 RDD 来说，每个分区都会被一个计算任务处理，并决定了并行计算的粒度。用户可以在创建 RDD 时指定 RDD 的分区数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的 CPU Core 的数目。 2、A function for computing eac

spark常见的RDD

shuimofengyang的博客

08-29

702

RDD定义弹性分布式数据集。是spark为简化用户的使用，对所有的底层数据进行的抽象，以面向对象的方式提供了RDD很多的方法，通过这些方法来对RDD进行计算和输出。RDD是Spark的基石，所有的上层模块全部都是由RDD来实现。 RDD的特性 a）不可变，对于所有RDD的操作都将产生一个新的RDD。 b)可分区， RDD是通过将数据进行分区保存的。 c)弹性：存储的弹性：内存与...

关于用System.out.println查看java spark RDD示例数据

yeqingyun2012的博客

04-16

2148

1、在RDD操作中用System.out.println()无法在日志中看到打印的东西 2、如果要打印RDD的结果可以取部分数据进行打印，例如： JavaPairRDD aa = ...; List> list = aa.take(100); for(int i=0;i System.out.println(list.get(i)+"\n"); }

SparkCore系列-1、RDD的基本认识

不积跬步无以至千里，不积小流无以成江河

07-22

499

SparkCore系列-1、RDD的基本认识

Spark RDD编程文件数据读写

晓晓的天空

03-13

3690

Spark RDD编程文件数据读写

大数据Spark（十二）：Spark Core的RDD详解

Lansonli（蓝深李）的博客

04-11

1184

RDD详解为什么需要RDD? 没有RDD之前, 1.MR:只提供了map和reduce的API,而且编写麻烦,运行效率低!---早就淘汰了! 2.使用Scala/Java的本地集合:但是只能完成本地单机版的,如果要实现分布式的,很困难! 所以需要有一个分布式的数据抽象,也就是用该抽象,可以表示分布式的集合,那么基于这个分布式集合进行操作,就可以很方便的完成分布式的WordCount!(该分布式集合底层应该将实现的细节封装好,提供简单易用的API!)---在此背景之下,RDD就诞生了! AMP实

RDD简介

qinlingheshang的博客

03-03

9222

RDD概念 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，是spark core的底层核心，它代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset:就是一个集合，存储很多数据. Distributed：它内部的元素进行了分布式存储，方便于后期进行分布式计算. Resilient：表示弹性，rdd的数据是可以保存在内存或者是磁盘中. RDD 五大属性 A list of partitions RDD 是一组