2024年最新大数据相关介绍，2024年最新2024最新大数据开发高频精选面试题分享

荣光彼方

于 2024-05-05 22:09:48 发布

阅读量278

点赞数 5

分类专栏：程序员文章标签：大数据

本文链接：https://blog.csdn.net/tencentes/article/details/138475346

版权

程序员专栏收录该内容

154 篇文章 0 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

高速是大数据区分于传统数据的重要特征。要求大数据的处理速度快，时效性高，需要实时分析而非批量式分析，数据的输入、处理和分析连贯性地处理。

4.Value:数据潜在价值大
大数据本身存在较大的潜在价值，但由于大数据的数据量过大，其价值往往呈现稀疏性的特点。虽然单位数据的价值密度在不断降低，但是数据的整体价值在提高。

二、结构化数据和非结构化数据

结构化数据

1.结构化数据即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。

2.结构化数据类型是一种用户定义的数据类型，它包含了一系列的属性，每一个属性都有一个数据类型。属性是专门用来帮助描述类型实例的特性。常见的结构化数据包括关系型数据库中的表格数据、电子表格中的数据、XML文件中的数据等。

非结构化数据

1.非结构化数据是指没有明确的结构和格式的数据，它不符合传统的表格、行列或关系型数据库的组织形式。非结构化数据的特点是多样性、复杂性和不规则性，常见的非结构化数据包括文本文档、电子邮件、社交媒体帖子、音频和视频文件、图像、日志文件等。

2.非结构化数据也没有明确的数据模型或模式，因此处理和分析非结构化数据更具挑战性。传统的关系型数据库和查询语言无法直接处理非结构化数据，需要使用特定的技术和工具进行处理，如自然语言处理、文本挖掘、图像识别、语音识别等。

结构化数据和非结构化数据的区别

1.数据组织形式：结构化数据按照预定义的模式和格式进行组织，具有明确的数据类型和关系，通常以表格、行列或关系型数据库的形式存储。非结构化数据没有明确的结构和格式，多样性、复杂性和不规则性较高，以文本、图像、音频、视频等形式存在。

2.数据处理方式：结构化数据可以通过传统的查询语言(如SQL)进行处理和分析，可以进行数据的筛选、排序、聚合等操作。非结构化数据的处理需要使用特定的技术和工具，如自然语言处理、图像识别、语音识别等，以提取有用的信息和洞察。

3.数据分析能力：结构化数据由于有明确的结构和格式，可以进行较为精确的数据分析和建模，可以进行统计分析、预测建模等。非结构化数据的分析相对更具挑战性，需要使用更复杂的技术和算法，如文本挖掘、情感分析、图像识别等。

4.数据应用领域：结构化数据常用于企业的业务数据管理、报表生成、决策支持等方面。非结构化数据常用于社交媒体分析、舆情监测、情感分析、图像识别、语音识别等领域。

需要注意的是，现实世界中的数据往往是结构化数据和非结构化数据的混合，因此在数据处理和分析时，需要综合考虑两种类型的数据。

三、Hadoop生态圈

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop 的核心是 HDFS 和 Mapreduce，HDFS 还包括 YARN。

1、HDFS（hadoop分布式文件）是hadoop体系中数据存储管理的基础。他是一个高度容错的系统，能检测和应对硬件故障。系统）

2、mapreduce（分布式计算框架）mapreduce是一种计算模型，用于处理大数据量的计算。其中map对应数据集上的独立元素进行指定的操作，生成键-值对形式中间，reduce则对中间结果中相同的键的所有值进行规约，以得到最终结果。

3、 hive（基于hadoop的数据仓库）由Facebook开源，最初用于解决海量结构化的日志数据统计问题。hive定于了一种类似sql的查询语言（hql）将sql转化为mapreduce任务在hadoop上执行。

4、hbase（分布式列存数据库）

hbase是一个针对结构化数据的可伸缩，高可靠，高性能，分布式和面向列的动态模式数据库。和传统关系型数据库不同，hbase采用了bigtable的数据模型：增强了稀疏排序映射表（key/value）。其中，键由行关键字，列关键字和时间戳构成，hbase提供了对大规模数据的随机，实时读写访问，同时，hbase中保存的数据可以使用mapreduce来处理，它将数据存储和并行计算完美结合在一起。

5、zookeeper（分布式协作服务）解决分布式环境下的数据管理问题：统一命名，状态同步，集群管理，配置同步等。

6、sqoop（数据同步工具）sqoop是sql-to-hadoop的缩写，主要用于传统数据库和hadoop之间传输数据。数据的导入和导出本质上是mapreduce程序，充分利用了MR的并行化和容错性。

7、pig（基于hadoop的数据流系统）定义了一种数据流语言-pig latin，将脚本转换为mapreduce任务在hadoop上执行。通常用于离线分析。

8、mahout（数据挖掘算法库）mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。mahout现在已经包含了聚类，分类，推荐引擎（协同过滤）和频繁集挖掘等广泛使用的数据挖掘方法。除了算法是，mahout还包含了数据的输入/输出工具，与其他存储系统（如数据库，mongoDB或Cassandra）集成等数据挖掘支持架构。

9、flume（日志收集工具）cloudera开源的日志收集系统，具有分布式，高可靠，高容错，易于定制和扩展的特点。他将数据从产生，传输，处理并写入目标的路径的过程抽象为数据流，在具体的数据流中，数据源支持在flume中定制数据发送方，从而支持收集各种不同协议数据。

10、资源管理器的简单介绍（YARN和mesos）随着互联网的高速发展，基于数据密集型应用的计算框架不断出现，从支持离线处理的mapreduce，到支持在线处理的storm，从迭代式计算框架到流式处理框架s4，…，在大部分互联网公司中，这几种框架可能都会采用，比如对于搜索引擎公司，可能的技术方法如下：网页建索引采用mapreduce框架，自然语言处理/数据挖掘采用spark，对性能要求到的数据挖掘算法用mpi等。公司一般将所有的这些框架部署到一个公共的集群中，让它们共享集群的资源，并对资源进行统一使用，这样便诞生了资源统一管理与调度平台，典型的代表是mesos和yarn。

四、Hadoop HDFS 架构

HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集（Large Data Set）的应用处理带来了很多便利。

HDFS的优势:
1.高容错性2.高数据吞吐量3.支持超大文件4.流式数据访问
HDFS的劣势:
1.不适合低延时数据访问
比如毫秒级的来存储数据，这是不行的，它做不到。它适合高吞吐率的场景，就是在某一时间内写入大量的数据。但是它在低延时的情况下是不行的，比如毫秒级以内读取数据，这样它是很难做到的。

2.不适合小文件存储
存储大量小文件(这里的小文件是指小于HDFS系统的Block大小的文件（默认64M）)的话，它会占用 NameNode大量的内存来存储文件、目录和块信息。这样是不可取的，因为NameNode的内存总是有限的。

小文件存储的寻道时间会超过读取时间，它违反了HDFS的设计目标。

3.不适合并发写入、文件随机修改
一个文件只能有一个写，不允许多个线程同时写；仅支持数据 append（追加），不支持文件的随机修改。

架构图

1.Client（客户端）
（1）文件切分，文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储

（2）与 NameNode 交互，获取文件的位置信息

（3）与 DataNode 交互，读取或者写入数据

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

化！**

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

荣光彼方

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
2024年最新大数据相关介绍，2024年最新2024最新大数据开发高频精选面试题分享

10、资源管理器的简单介绍（YARN和mesos）随着互联网的高速发展，基于数据密集型应用的计算框架不断出现，从支持离线处理的mapreduce，到支持在线处理的storm，从迭代式计算框架到流式处理框架s4，…其中，键由行关键字，列关键字和时间戳构成，hbase提供了对大规模数据的随机，实时读写访问，同时，hbase中保存的数据可以使用mapreduce来处理，它将数据存储和并行计算完美结合在一起。常见的结构化数据包括关系型数据库中的表格数据、电子表格中的数据、XML文件中的数据等。
复制链接

扫一扫