Spark学习总结
通过本学期的学习我知道了什么是Spark,Apache Spark作为下一代大数据处理引擎,现已成为当今大数据领域非常活跃、高效的大数据计算平台,很多互联网公司都使用Spark来实现公司的核心业务,例如阿里的云计算平台、京东的推荐系统等,只要和海量数据相关的领域,都有Spark的身影。Spark提供了Java、Scala、Python和R语言的开发API,支持一组丰富的高级工具,包括使用SQL进行结构化数据处理的SparkSQL,用于机器学习的MLlib,用于图处理的GraphX,以及用于实时流处理的Spark Streaming。这些高级工具可以在同一个应用程序中无缝地组合,大大提高了开发效率,降低了开发难度。
学习 Spark 的过程中,我主要关注了以下几个方面:
1. 基础知识:学习了 Spark 的概念、架构、组件以及常用的 API 等基础知识,并尝试使用Spark 进行简单的数据处理任务。
2. 数据处理:学习了 Spark 的常用数据处理操作,包括数据读取与保存、数据转换、聚合操作等,并掌握了 RDD、DataFrame 和 DataSet 三种不同的数据结构。
3. 分布式计算