大数据原理期末复习

1、请详述云计算、大数据和物联网三者的联系

1)大数据侧重于对海量数据的存储、分析和处理,从海量数据中发现应用价值,更好地服务社会生活和生产;云计算实质上旨在整理和优化IT资源,并通过网络以服务的方式廉价地提供给用户,物联网的发展目标是物物相连,其发展核心是应用创新;
2)云计算、大数据、物联网三者相辅相成。大数据根值于云计算,大数据分析的很多技术来源于云计算技术,云计算的分布式数据存储和管理系统(包括分布式文件系统和分布式数据库系统)提供了海量数据的存储和管理能力,没有云计算技术作为支撑,大数据分析就无从说起;反之,大数据为云计算提供了用武之地,没有大数据,云计算就无法发挥它的应用价值;物联网的传感器源源不断产生的大量数据,构成了大数据的重要数据来源,没有物联网的飞速发展,就不会带来数据产生方式的变革,即从人工产生阶段转向自动产生阶段。同时,物联网依赖大数据和云计算实现海量数据的存储、分析和处理。

2、请列举5个Hadoop生态系统中的组件,并对每一个组件做简要描述

1)HDFS:是Hadoop分布式文件系统,是Hadoop两大核心项目之一,针对谷歌分布式文件系统的开源实现。HDFS具有处理海量数据,流式处理,可以运行在廉价的商用服务器上等优点。对于超大规模数据集的应用程序而言,选择HDFS作为底层数据存储是较好的选择。
2)HBASE:具有高可靠性、高性能、可伸缩、分布式的列式数据库。一般采用HDFS作为底层数据存储。
3)MapReduce:是一种编程模型,用于超大规模数据集的并行计算。其核心思想是“分而治之”。
4)Hive:是一种基于Hadoop的数据仓库工具。可以对Hadoop文件中的数据集进行数据整理,特殊查询和存储分析。
5)Pig:是一种数据流语言和运行环境。适用于使用Hadoop和MapReduce平台来查询大型半结构化数据集。

3、请详述HBase中Region服务器的Store文件的形成过程以及工作原理

Region服务器是HBASE的核心模块,而STore是Region服务器的核心。Region服务器由一个Hlog文件和一系列Region对象组成,一个Region由多个Store组成。每个Store表示了表的列族的存储。每个Store由一个MEMStore和多个StoreFile组成。当用户写入数据时,先向MEMStore缓存中写入,当MEMStore容量满了之后,执行刷新操作,将内容写入磁盘中的StoreFile文件。随着StoreFile文件的数量逐渐增加,当达到事先设定的数量时,就会触发合并文件操作。多个StoreFile文件会被合并成一个更大的StoreFile文件。当当多个StoreFile文件被合并后,会逐步形成越来越大的StoreFile文件,当单个StoreFile文件大小超过一定的阈值时,触发分裂文件操作。同时,当前的1一个父Region分裂成两个子Region,父Region会下线,两个子Region被Master分配到相应的Region服务器中上。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值