大数据原理期末复习

最新推荐文章于 2024-01-16 14:59:42 发布

读书浇花晒太阳

最新推荐文章于 2024-01-16 14:59:42 发布

阅读量1k

点赞数

分类专栏：期末复习

本文链接：https://blog.csdn.net/XDQ3333/article/details/103581650

版权

期末复习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、请详述云计算、大数据和物联网三者的联系

1）大数据侧重于对海量数据的存储、分析和处理，从海量数据中发现应用价值，更好地服务社会生活和生产；云计算实质上旨在整理和优化IT资源，并通过网络以服务的方式廉价地提供给用户，物联网的发展目标是物物相连，其发展核心是应用创新；
2）云计算、大数据、物联网三者相辅相成。大数据根值于云计算，大数据分析的很多技术来源于云计算技术，云计算的分布式数据存储和管理系统（包括分布式文件系统和分布式数据库系统）提供了海量数据的存储和管理能力，没有云计算技术作为支撑，大数据分析就无从说起；反之，大数据为云计算提供了用武之地，没有大数据，云计算就无法发挥它的应用价值；物联网的传感器源源不断产生的大量数据，构成了大数据的重要数据来源，没有物联网的飞速发展，就不会带来数据产生方式的变革，即从人工产生阶段转向自动产生阶段。同时，物联网依赖大数据和云计算实现海量数据的存储、分析和处理。

2、请列举5个Hadoop生态系统中的组件，并对每一个组件做简要描述

1）HDFS：是Hadoop分布式文件系统，是Hadoop两大核心项目之一，针对谷歌分布式文件系统的开源实现。HDFS具有处理海量数据，流式处理，可以运行在廉价的商用服务器上等优点。对于超大规模数据集的应用程序而言，选择HDFS作为底层数据存储是较好的选择。
2）HBASE：具有高可靠性、高性能、可伸缩、分布式的列式数据库。一般采用HDFS作为底层数据存储。
3）MapReduce：是一种编程模型，用于超大规模数据集的并行计算。其核心思想是“分而治之”。
4）Hive：是一种基于Hadoop的数据仓库工具。可以对Hadoop文件中的数据集进行数据整理，特殊查询和存储分析。
5）Pig：是一种数据流语言和运行环境。适用于使用Hadoop和MapReduce平台来查询大型半结构化数据集。

3、请详述HBase中Region服务器的Store文件的形成过程以及工作原理

Region服务器是HBASE的核心模块，而STore是Region服务器的核心。Region服务器由一个Hlog文件和一系列Region对象组成，一个Region由多个Store组成。每个Store表示了表的列族的存储。每个Store由一个MEMStore和多个StoreFile组成。当用户写入数据时，先向MEMStore缓存中写入，当MEMStore容量满了之后，执行刷新操作，将内容写入磁盘中的StoreFile文件。随着StoreFile文件的数量逐渐增加，当达到事先设定的数量时，就会触发合并文件操作。多个StoreFile文件会被合并成一个更大的StoreFile文件。当当多个StoreFile文件被合并后，会逐步形成越来越大的StoreFile文件，当单个StoreFile文件大小超过一定的阈值时，触发分裂文件操作。同时，当前的1一个父Region分裂成两个子Region，父Region会下线，两个子Region被Master分配到相应的Region服务器中上。

读书浇花晒太阳

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
大数据原理期末复习

1、请详述云计算、大数据和物联网三者的联系1）大数据侧重于对海量数据的存储、分析和处理，从海量数据中发现应用价值，更好地服务社会生活和生产；云计算实质上旨在整理和优化IT资源，并通过网络以服务的方式廉价地提供给用户，物联网的发展目标是物物相连，其发展核心是应用创新；2）云计算、大数据、物联网三者相辅相成。大数据根值于云计算，大数据分析的很多技术来源于云计算技术，云计算的分布式数据存储和管理系统...
复制链接

扫一扫

专栏目录