RDD编程初级实践

  1. 需求描述

 

在当今大数据背景下,许多东西都需要利用大数据的技术去解决。此次实验目的是为了让我们更加熟悉Spark的RDD基本操作及键值对操作;熟悉使用RDD编程解决实际具体问题的方法。

一、pyspark交互式编程

通过学习成绩的算出

(1)该系总共有多少学生;

(2)该系共开设了多少门课程;

(3)Tom同学的总成绩平均分是多少;

(4)求每名同学的选修的课程门数;

(5)该系DataBase课程共有多少人选修;

(6)各门课程的平均分是多少;

(7)使用累加器计算共有多少人选了DataBase这门课。

二、编写独立应用程序实现数据去重

三、编写独立应用程序实现求平均值问题

 

环境介绍

 

Spark是一个类似于Hadoop的开源集群计算环境,但是它们之间有一些区别。这些有用的差异使spark在某些工作负载中表现得更好。换句话说,spark支持内存分布式数据集,它不仅可以提供交互式查询,还可以优化迭代工作负载。

Spark实现了一个快速通用的集群计算平台,用于构建大型、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型。高效支持更多的计算模式,包括交互式查询和流处理。spark的一个主要特点是它可以在内存中进行计算,并依靠磁盘在时间上进行复杂的操作。Spark仍然比MapReduce更有效。RDD弹性分布式数据集(RDD)是其设计的核心,它是内存计算,适用于计算机集群,高效容错,spark上并行操作,spark上只读。

兼容性:

Spark可以很容易地与其他开源产品集成。例如,spark可以使用Hadoop的horn的YARN和Apache mesos作为其资源管理器和调度器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase、Cassandra等。这对于部署了Hadoop群集的用户尤其重要,因为spark强大的处理能力可以在没有任何数据迁移的情况下使用。Spark还可以独立于第三方资源管理和调度程序。它实现了standalone作为其内置的资源管理和调度框架,这进一步降低了spark的使用门槛,使每个人都可以非常轻松地部署和使用spark。此外,spark还提供了在EC2上部署standalone的spark集群的工具。

spark的组成:

Spark组成(BDAS):全称伯克利数据分析栈,通过大规模集成算法、机器、人之间展现大数据应用的一个平台。也是处理大数据、云计算、通信的技术解决方案。

它的主要组件有:

SparkCore:将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。

SparkSQL:Spark Sql 是Spark来操作结构化数据的程序包,可以让我使用SQL语句的方式来查询数据,Spark支持 多种数据源,包含Hive表,parquest以及JSON等内容。

SparkStreaming: 是Spark提供的实时数据进行流式计算的组件。

MLlib:提供常用机器学习算法的实现库。

GraphX:提供一个分布式图计算框架,能高效进行图计算。

BlinkDB:用于在海量数据上进行交互式SQL的近似查询引擎。

Tachyon:以内存为中心高容错的的分布式文件系统。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值