我嘞个spark骚缸啊(1)，2024年最新不看绝对血亏-CSDN博客

本文链接：https://blog.csdn.net/2401_84159783/article/details/137907034

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）

正文

7，pig（基于hadoop的数据流系统）

定义了一种数据流语言-pig latin，将脚本转换为mapreduce任务在hadoop上执行。

通常用于离线分析。

8，mahout（数据挖掘算法库）

mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。mahout现在已经包含了聚类，分类，推荐引擎（协同过滤）和频繁集挖掘等广泛使用的数据挖掘方法。除了算法是，mahout还包含了数据的输入/输出工具，与其他存储系统（如数据库，mongoDB或Cassandra）集成等数据挖掘支持架构。

9，flume（日志收集工具）

cloudera开源的日志收集系统，具有分布式，高可靠，高容错，易于定制和扩展的特点。他将数据从产生，传输，处理并写入目标的路径的过程抽象为数据流，在具体的数据流中，数据源支持在flume中定制数据发送方，从而支持收集各种不同协议数据。

二、mapreduce概述

MapReduce是一个分布式运算程序的编程框架，其核心功能为把用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在Hadoop集群上

MapReduce是一种编程模型和处理框架，主要用于处理大规模数据集的并行计算。

MapReduce编程模型包括两个主要阶段：Map阶段和Reduce阶段。在Map阶段，输入数据集被划分成若干个小数据块，每个小数据块由一个Map任务处理，Map任务将输入数据进行映射，并生成中间键值对。这些中间键值对按照键进行排序，并传递给Reduce任务。

在Reduce阶段，Reduce任务从Map阶段输出的中间数据中获取与特定键关联的所有值，然后对这些值进行汇总处理。最终，Reduce任务输出最终的结果数据。

MapReduce框架负责管理整个计算过程，包括任务的调度、错误处理、数据传输等。通过MapReduce，用户可以在分布式计算集群上高效地执行大规模数据处理任务，实现横向扩展和并行化处理，从而提高计算速度和效率。

三、spark技术特点和概述

Spark是一种快速、通用的分布式计算引擎，具有以下技术特点和概述：

快速性能：Spark使用内存计算和弹性分布式数据集（RDD）模型，在内存中执行计算，并通过高度优化的调度器实现高速数据处理。这种机制使得Spark比传统的基于磁盘的批处理框架更加快速，适用于迭代式算法和交互式数据分析等工作负载。
多语言支持：Spark提供对多种编程语言的支持，包括Scala、Java、Python和R等。这使得开发人员可以使用自己喜欢的语言进行Spark应用程序的开发，提高了开发的灵活性和效率。
分布式数据集（RDD）：RDD是Spark的核心抽象，代表着分布式计算过程中的弹性、可分区、可并行操作的数据集合。RDD可以容错地在集群中的多个节点上进行并行处理，提供了丰富的数据转换和操作操作，如map、filter、reduce等。RDD还支持用户自定义的持久化策略，允许数据被缓存在内存中，进一步提高计算性能。
扩展性和集成性：Spark具有良好的可扩展性，可以轻松地运行在大规模的分布式集群上。此外，Spark还提供了与其他常用数据存储和处理系统（如Hadoop、Hive、HBase等）的集成接口，方便用户在现有基础设施上构建和扩展Spark应用程序。
流数据处理支持：除了批处理，Spark还提供了对流式处理的支持，称为Spark Streaming。Spark Streaming可以以微批处理的形式处理实时数据流，使得用户能够对连续数据流进行高效的实时计算和分析。

综上所述，Spark通过其快速性能、多语言支持、弹性分布式数据集（RDD）、可扩展性和与其他系统的集成性等特点，成为了大规模数据处理和分析的流行选择，在各个领域都有广泛的应用。

四、mapreduce和spark的区别

spark处理数据是基于内存的，而MapReduce是基于磁盘处理数据的。

Mapreduce是将中间结果保存到磁盘中，减少了内存占用，牺牲了计算性能。

Spark是将计算的中间结果保存到内存中，可以反复利用，提高了处理数据的性能。

五、结构化数据与非结构化数据是什么？

什么是结构化数据

大多数人都熟悉结构化数据的工作原理。结构化数据，可以从名称中看出，是高度组织和整齐格式化的数据。它是可以放入表格和电子表格中的数据类型。它可能不是人们最容易找到的数据类型，但与非结构化数据相比，无疑是两者中人们更容易使用的数据类型。另一方面，计算机可以轻松地搜索它。

结构化数据也被成为定量数据，是能够用数据或统一的结构加以表示的信息，如数字、符号。在项目中，保存和管理这些的数据一般为关系数据库，当使用结构化查询语言或SQL时，计算机程序很容易搜索这些术语。结构化数据具有的明确的关系使得这些数据运用起来十分方便，不过在商业上的可挖掘价值方面就比较差。

典型的结构化数据包括：信用卡号码、日期、财务金额、电话号码、地址、产品名称等

什么是非结构化数据

非结构化数据本质上是结构化数据之外的一切数据。它不符合任何预定义的模型，因此它存储在非关系数据库中，并使用NoSQL进行查询。它可能是文本的或非文本的，也可能是人为的或机器生成的。简单的说，非结构化数据就是字段可变的的数据。

非结构化数据不是那么容易组织或格式化的。收集，处理和分析非结构化数据也是一项重大挑战。这产生了一些问题，因为非结构化数据构成了网络上绝大多数可用数据，并且它每年都在增长。随着更多信息在网络上可用，并且大部分信息都是非结构化的，找到使用它的方法已成为许多企业的重要战略。更传统的数据分析工具和方法还不足以完成工作。