Spark大数据技术(Scala)小白教程(一)——大数据技术概述以及环境配置_spark scala教程

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

1.22 Spark

Spark 简介: Apache Spark 是一个基于内存计算的大数据处理框架,提供了高性能和灵活性,支持多种数据处理模式。Spark 提供了丰富的 API,包括 Spark Core、Spark SQL、Spark Streaming、MLlib(机器学习库)和 GraphX(图计算库),使得用户可以方便地进行数据处理、数据分析和机器学习等任务。

Spark 与 Hadoop 对比:

  • Hadoop 的缺点:

    • 高延迟: Hadoop MapReduce 是一种批处理模式,处理实时数据时存在较高的延迟,不适合需要快速响应的应用场景。
    • 磁盘读写: Hadoop 的 MapReduce 框架在数据处理过程中需要频繁读写磁盘,导致性能较低。
    • 复杂性: Hadoop 的配置和管理相对复杂,需要较多的人力和资源投入。
  • Spark 的优点:

    • 内存计算: Spark 采用内存计算方式,将数据存储在内存中,大大提高了数据处理速度,适合需要低延迟的实时数据处理需求。
    • 多种数据处理模式: Spark 支持批处理、流处理、交互式查询、机器学习和图计算等多种数据处理模式,更加灵活。
    • 易用性: Spark 提供了丰富的 API 支持,编程模型简单易懂,开发效率高。

Spark 与 Hadoop 的统一部署: Spark 相对于 MapReduce 具有更高的性能、更灵活的数据处理模式、更简单易用的编程模型和更高效的资源管理。在实时数据处理、交互式查询和复杂数据处理任务中,Spark 更具优势。然而,MapReduce 在某些场景下仍然有其优势,如对于简单的批处理任务和对稳定性要求较高的任务。因此,根据具体需求和场景选择合适的框架是很重要的。因此许多企业在实际应用中通常采用统一部署的形式。Spark 与 Hadoop 可以统一部署在同一个集群中,实现共享资源和数据的优势。通过 YARN(Hadoop 的资源管理器)或者 Spark 自带的 Standalone 模式,可以在同一个集群上同时运行 Hadoop 和 Spark 作业。这种统一部署方式可以充分利用集群资源,减少资源的浪费,简化集群管理,并提高数据处理的整体性能。同时,Spark 可以直接读取 HDFS(Hadoop 分布式文件系统)中的数据,实现数据共享和互操作性。

1.3 Spark的编程语言——Scala

1.31为什么选择 Scala 作为 Spark 的编程语言?
  1. Scala 是 JVM 语言:

    • Scala 是一种运行在 Java 虚拟机(JVM)上的编程语言,与 Java 无缝集成。由于 Spark 本身就是用 Scala 编写的,因此选择 Scala 作为编程语言可以更好地与 Spark 内部代码集成,提高开发效率。
  2. 函数式编程支持:

    • Scala 是一种支持函数式编程的语言,具有强大的函数式编程特性,如高阶函数、不可变性和模式匹配等。这些特性使得在 Spark 中进行数据处理更加简洁、高效和易于理解。
  3. 静态类型系统:

    • Scala 是一种静态类型语言,可以在编译时捕获更多的错误,提高代码的可靠性和稳定性。在大规模的数据处理任务中,静态类型系统可以帮助开发人员更好地管理复杂性。
  4. 并发性能:

    • Scala 提供了强大的并发编程支持,通过 Actor 模型等机制可以更好地处理并发任务。在 Spark 中,处理大规模数据时并发性能尤为重要,Scala 的并发特性有助于提高 Spark 作业的性能和效率。
  5. 丰富的函数库:

    • Scala 拥有丰富的函数库和工具,可以帮助开发人员更快地构建复杂的数据处理逻辑。这些函数库可以与 Spark 的 API 结合使用,为开发人员提供更多的选择和灵活性。
  6. 社区支持:

    • Scala 拥有一个庞大而活跃的社区,有大量的开发者为其贡献代码和工具。Spark 作为 Scala 的主要应用之一,能够充分利用 Scala 社区的资源和支持,保证了 Spark 的持续发展和改进。

综上所述,Scala 作为 Spark 的编程语言,不仅与 Spark 内部代码更好地集成,还具有强大的函数式编程支持、静态类型系统、并发性能和丰富的函数库,这些特性使得 Scala 成为 Spark 开发的理想选择。

1.4 安装Linux系统

1.41使用 Spark 为什么要安装 Linux 系统?
  1. 原生支持:

    • Spark 最初是在 Linux 环境下开发和测试的,因此在 Linux 上运行 Spark 可以获得最好的兼容性和性能。Spark 在 Linux 上的部署更为稳定和高效。
  2. 开发者社区支持:

    • 大多数 Spark 的开发者和用户选择在 Linux 上进行开发和部署,因此在 Linux 上更容易获得社区支持和解决问题。开发者可以更快地获得帮助和资源。
  3. 性能优势:

    • Linux 系统通常比 Windows 系统更适合用于大数据处理和分布式计算,因为 Linux 具有更好的性能、稳定性和可靠性。Spark 在 Linux 上可以更好地发挥其性能优势。
  4. 容易部署分布式环境:

    • 在 Linux 系统上部署分布式环境更为简单和灵活,可以更好地管理集群节点、配置网络和调优系统性能。Spark 的分布式计算需要一个可靠的操作系统来支持。
  5. 资源管理和调度:

    • Linux 系统提供了更多的资源管理和调度工具,如 YARN、Mesos 等,这些工具可以更好地管理集群资源、调度作业和监控任务。Spark 在 Linux 上可以更好地与这些工具集成。
  6. 安全性和稳定性:

    • Linux 系统通常比 Windows 系统更安全和稳定,可以更好地保护数据和系统免受攻击。在大数据处理中,安全性和稳定性是至关重要的。
1.42 安装Linux虚拟机——VMware17

Linux 虚拟机可以在不同的主机系统上运行,如 Windows、macOS 等,提供了跨平台兼容性。考虑到目前许多读者使用的都是window或者mac系统,因此为了后续学习,这里出一个Linux虚拟机安装教程。

安装步骤:

1.打开网站https://www.vmware.com/products/workstation-player/workstation-player-evaluation.html

2.点击红色边框的立即下载

3.将下载好的文件打开

打开后会出现这个界面:

4.点击下一步直到出现这个界面,将第二个勾选上,如下图:

5.勾选下面两个选项,点击下一步

6.  点击安装,等待安装

7.安装完成后点击完成:

8.在桌面上会出现这个图标,说明安装完成,打开后出现这个界面

9 .下载ubuntu镜像文件,这里本文使用的是Ubuntu16.04版本

官网地址:http://www.ubuntu.com,页面如下,点击红色方框

点击红色框的下载,版本为22.04,其他版本网站里也有,这里不赘述,读者可自行探索。

若官网的速度较慢,下面介绍更快的方法,首先,在刚刚的界面上点击红色框框

然后在进入的页面往下拉,点击红色框框

进入页面后下滑找到这个选项,点击进入页面后下滑,找到我国的镜像,任意选择一个点击

这里选择南洋理工大学实测更快

选择下载的版本,这里我选择22.04.4,点击

选择红色方框文件,点击即可下载

但是有时候镜像也不一定更快,比如我这次官网竟然更快,可能是版本不同,根据情况定就好

不过通常来说,镜像网站的速度更快(网速有一个加速过程),网络更稳定,我后面下载的时候官网的直接断了

下载好之后,先把文件剪切到一个新文件夹里,防止找不到,后续要用文件地址

10.然后打开vm虚拟机,点击新建

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值