RDD编程初级实践

最新推荐文章于 2024-05-16 19:31:31 发布

liuweitao1995

最新推荐文章于 2024-05-16 19:31:31 发布

阅读量696

点赞数

本文链接：https://blog.csdn.net/liuweitao1995/article/details/117912184

版权

需求描述

在当今大数据背景下，许多东西都需要利用大数据的技术去解决。此次实验目的是为了让我们更加熟悉Spark的RDD基本操作及键值对操作；熟悉使用RDD编程解决实际具体问题的方法。

一、pyspark交互式编程

通过学习成绩的算出

（1）该系总共有多少学生；

（2）该系共开设了多少门课程；

（3）Tom同学的总成绩平均分是多少；

（4）求每名同学的选修的课程门数；

（5）该系DataBase课程共有多少人选修；

（6）各门课程的平均分是多少；

（7）使用累加器计算共有多少人选了DataBase这门课。

二、编写独立应用程序实现数据去重

三、编写独立应用程序实现求平均值问题

环境介绍

Spark是一个类似于Hadoop的开源集群计算环境，但是它们之间有一些区别。这些有用的差异使spark在某些工作负载中表现得更好。换句话说，spark支持内存分布式数据集，它不仅可以提供交互式查询，还可以优化迭代工作负载。

Spark实现了一个快速通用的集群计算平台，用于构建大型、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型。高效支持更多的计算模式，包括交互式查询和流处理。spark的一个主要特点是它可以在内存中进行计算，并依靠磁盘在时间上进行复杂的操作。Spark仍然比MapReduce更有效。RDD弹性分布式数据集（RDD）是其设计的核心，它是内存计算，适用于计算机集群，高效容错，spark上并行操作，spark上只读。

兼容性：

Spark可以很容易地与其他开源产品集成。例如，spark可以使用Hadoop的horn的YARN和Apache mesos作为其资源管理器和调度器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase、Cassandra等。这对于部署了Hadoop群集的用户尤其重要，因为spark强大的处理能力可以在没有任何数据迁移的情况下使用。Spark还可以独立于第三方资源管理和调度程序。它实现了standalone作为其内置的资源管理和调度框架，这进一步降低了spark的使用门槛，使每个人都可以非常轻松地部署和使用spark。此外，spark还提供了在EC2上部署standalone的spark集群的工具。

spark的组成：

Spark组成(BDAS)：全称伯克利数据分析栈，通过大规模集成算法、机器、人之间展现大数据应用的一个平台。也是处理大数据、云计算、通信的技术解决方案。

它的主要组件有：

SparkCore：将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、RPC、序列化和压缩，并为运行在其上的上层组件提供API。

SparkSQL：Spark Sql 是Spark来操作结构化数据的程序包，可以让我使用SQL语句的方式来查询数据，Spark支持多种数据源，包含Hive表，parquest以及JSON等内容。

SparkStreaming：是Spark提供的实时数据进行流式计算的组件。

MLlib：提供常用机器学习算法的实现库。

GraphX：提供一个分布式图计算框架，能高效进行图计算。

BlinkDB：用于在海量数据上进行交互式SQL的近似查询引擎。

Tachyon：以内存为中心高容错的的分布式文件系统。

最低0.47元/天解锁文章

liuweitao1995

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
RDD编程初级实践

需求描述在当今大数据背景下，许多东西都需要利用大数据的技术去解决。此次实验目的是为了让我们更加熟悉Spark的RDD基本操作及键值对操作；熟悉使用RDD编程解决实际具体问题的方法。一、通过学习成绩的算出（1）该系总共有多少学生；（2）该系共开设了多少门课程；（3）Tom同学的总成绩平均分是多少；（4）求每名同学的选修的课程门数；（5）该系DataBase课程共有多少人选修；（6）各门课程的平均分是多少；（7）使用累加器计算共有多少人选了DataBase这门课。二、.
复制链接

扫一扫