Spark半期学习总结

十四是40

已于 2022-06-16 16:47:02 修改

阅读量600

点赞数

文章标签：学习 spark scala

于 2022-06-12 15:25:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_56238454/article/details/125245400

版权

本学期主要学习Spark的功能和使用。

简单介绍一下Spark

Apache Spark是一个快速通用的集群计算系统，是一种与Hadoop相似的开源集群计算环境，但是Spark在某些工作负载方面表现得更加优越。它提供了Java、Scala、Python和R的高级API，以及一个支持通用的执行图计算的优化引擎。它还支持一组丰富的高级工具，包括使用SQL进行结构化数据处理的Spark SQL、用于机器学习的MLlib、用于图处理的GraphX，以及用于实时流处理的Spark Streaming。

学习的主要内容

1.了解Spark能够做什么

Spark作为下一代大数据处理引擎，现已成为当今大数据领域非常活跃、高效的大数据计算平台，很多互联网公司都使用Spark来实现公司的核心业务，例如阿里的云计算平台、京东的推荐系统等，只要和海量数据相关的领域，都有Spark的身影。Spark提供了Java、Scala、Python和R的高级API，支持一组丰富的高级工具，包括使用SQL进行结构化数据处理的SparkSQL，用于机器学习的MLlib，用于图处理的GraphX，以及用于实时流处理的Spark Streaming。这些高级工具可以在同一个应用程序中无缝地组合，大大提高了开发效率，降低了开发难度。

2.搭建Spark开发环境

我暂时使用的是伪分布模式，主要步骤如下：

1.安装虚拟机并实现免密登录

2.上传Hadoop安装包并解压到相应目录下

3.配置Hadoop伪分布模式

4.搭建伪分布式Spark

5.启动伪分布式Spark

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark半期学习总结

本学期主要学习Spark的功能和使用。Apache Spark是一个快速通用的集群计算系统，是一种与Hadoop相似的开源集群计算环境.
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。