3.2 掌握RDD算子

最新推荐文章于 2024-08-27 00:00:00 发布

不喜欢编程的我

最新推荐文章于 2024-08-27 00:00:00 发布

阅读量745

点赞数

文章标签： hadoop 大数据 spark

本文链接：https://blog.csdn.net/qq_62590351/article/details/130964796

版权

本文详细介绍了如何在Spark中使用各种RDD算子，包括映射、过滤、扁平映射、按键归约、合并、排序等多种转换算子，并通过实际案例展示了如何运用这些算子处理数据，如计算总分、统计单词个数、过滤偶数等。同时，也讲解了行动算子如reduce、collect、first、count等的操作，提供了完整的数据处理流程。

摘要由CSDN通过智能技术生成

一、准备工作

（一）准备文件

1、准备本地系统文件
在这里插入图片描述

2、把文件上传到HDFS

（二）启动Spark Shell

1、启动HDFS服务
在这里插入图片描述
2、启动Spark服务

3、启动Spark Shell

二、掌握转换算子

（一）映射算子 - map()

映射算子案例
在这里插入图片描述

任务1、将rdd1每个元素翻倍得到rdd2
对rdd1应用map()算子，将rdd1中的每个元素平方并返回一个名为rdd2的新RDD
在这里插入图片描述
其实，利用神奇占位符_可以写得更简洁

rdd1和rdd2中实际上没有任何数据，因为parallelize()和map()都为转化算子，调用转化算子不会立即计算结果。

执行rdd2.collect进行计算，并将结果以数组的形式收集到当前Driver。因为RDD的元素为分布式的，数据可能分布在不同的节点上。
在这里插入图片描述
任务2、将rdd1每个元素平方得到rdd2
方法一、采用普通函数作为参数传给map()算子

方法二、采用下划线表达式作为参数传给map()算子

难道就不能用下划线参数了吗？当然可以，但是必须保证下划线表达式里下划线只出现1次。引入数学包scala.math._就可以搞定。
在这里插入图片描述

任务3、利用映射算子打印菱形
（1）Spark Shell里实现
菱形正立的等腰三角形和倒立的等腰三角形组合而成

（2）在IDEA里创建项目实现
在这里插入图片描述

将java目录改成scala目录

在pom.xml文件里添加相关依赖和设置源程序目录

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>net.cxf.rdd</groupId>
    <artifactId>SparkRDDDemo</artifactId>
    <version>1.0-SNAPSHOT</version>
    <dependencies>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.12.15</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.12</artifactId>
            <version>3.1.3</version>
        </dependency>
    </dependencies>
    <build>
        <sourceDirectory>src/main/scala</sourceDirectory>
    </build>

</project>

刷新项目依赖
在这里插入图片描述
添加日志属性文件

log4j.rootLogger=ERROR, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spark.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

创建hdfs-site.xml文件，允许客户端访问集群数据节点
在这里插入图片描述

<?xml version="1.0" encoding="UTF-8"?>
<configuration>
    <property>
        <description>only config in clients</description>
        <name>dfs.client.use.datanode.hostname</name>
        <val

最低0.47元/天解锁文章

不喜欢编程的我

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
3.2 掌握RDD算子

因为RDD的元素为分布式的，数据可能分布在不同的节点上。+ 100 1 + 2 + 3 + ……+ 1001+2+3+List集合中存储的是键值对形式的元组，使用该List集合创建一个RDD，然后对其进行countByKey的计算。一个数组中存放了三个元组，将该数组转为RDD集合，然后对该RDD按照每个元素中的第二个值进行降序排列。对rdd1应用map()算子，将rdd1中的每个元素平方并返回一个名为rdd2的新RDD。对于rdd1按空格拆分，做扁平映射，生成新RDD - rdd3，有一个降维处理的效果。
复制链接

扫一扫