大数据课程学期总结

To the wind,

已于 2022-06-17 20:27:34 修改

阅读量1.7k

点赞数

文章标签： spark scala big data

于 2022-06-16 12:56:14 首次发布

本文链接：https://blog.csdn.net/HTY_yysd/article/details/125313665

版权

本篇博客回顾了一学期的Spark学习历程，涵盖了私有云虚拟机配置、Hadoop、SparkStandalone集群搭建、Scala、RDD以及SpringBoot框架等内容。文章强调了Spark的内存计算优势和其在机器学习、图算法、流计算和SQL查询的应用。通过实践案例，作者从零开始掌握了RDD的使用，并了解到Spark的弹性分布式数据集特性。尽管课程结束，但学习永不止步。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

经过了一学期的的学习，我们学习到了：私有云上创建与配置虚拟机，Hadoop，在VMware上创建虚拟机，搭建Spark Standalone集群，Scala，RDD，Spark RDD案例分析，Spring Boot框架。当然还做了很多案例和课堂小作业，从刚刚开始的一无所知到现在熟练的搭建spark集群和掌握RDD算子，我们从概念开始，再到实践案例结束。整个过程不仅不枯燥反而很有趣，对学习感兴趣说明是一个好兆头。老师指导我们，分析案例，寻找问题，解决问题。让我们把过程很案例都发布在博文上让我们做好记录加深印象，或许以后有用的到的地方还可以回来自己看看。

了解和学习了怎么多，其实都是围绕spark来学习的，概述一下spark

一.Spark概述
Apache Spark是⽤于⼤数据处理的集群计算框架，它并未使⽤MapReduce作为执⾏引擎，⽽是使⽤⾃⼰的分布式运⾏环境在集群上执⾏
⼯作。Spark最突出的表现在于它能将作业与作业之间产⽣的⼤规模数据集存储在内存中
Spark还是⽤于构建分析⼯具的出⾊平台。为此，Spark项⽬包括机器学习（MLlib）、图算法（GraphX）、流计算（SparkStreaming）和SQL查询（Spark SQL）等模块。
⼆、弹性分布式数据集
弹性分布式数据集（RDD）是Spark最核⼼的概念，它是在集群中跨多个机器分区存储的⼀个只读的对象集合
在典型的Spark程序中，⾸先要加载⼀个或多个RDD，它们作为输⼊通过⼀系列转换得到⼀组⽬标RDD，然后对这些⽬标RDD执⾏⼀个动作，例如计算出结果或者写⼊持久存储器
“弹性”指的是Spark可以通过重新安排计算来⾃动重建丢失的分区

当然我们学习这期都是认知和了解，如果要深度去理解RDD和掌握Spark还得课下努力，通过这门课程，让我慢慢的入门，我也很对这门课程感兴趣，当然虽然课程结束了，但我们的学习并不会结束。