答:批处理计算,流计算,图计算,查询分析计算
10.大数据产业包含哪些关键技术。
答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。
11.定义并解释以下术语:云计算、物联网
答: 云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。
物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。
12.详细阐述大数据、云计算和物联网三者之间的区别与联系。
大数据、云计算和物联网的区别 |
大数据、云计算和物联网的联系 |
大数据侧重于海量数据的存储、处理与分析,海量数据中发现价值,服务于生产和生活;云计算本质上皆在整合和优化各种IT资源并通过网络已服务的方法,廉价地提供给用户;物联网的发展目标是实现呜呜向量,应用创新是物联网的核心 |
从整体来看,大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算,大数据分析的很多技术都来自于云计算,云计算的分布式存储和管理系统提供了海量数据的存储和管理能力,没有这些云计算技术作为支撑,大数据分析就无从谈起。物联网的传感器源源不断的产生大量数据,构成了大数据的重要数据来源,物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理。 |
第二章
1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系
答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。
2.试述Hadoop具有哪些特性。
答:高可靠性,高效性,高可扩展性,高容错性,成本低,运行在Linux平台,支持多种编程语言
3.试述Hadoop在各个领域的应用情况。
答:2007年,雅虎在Sunnyvale总部建立了M45——一个包含了4000个处理器和1.5PB容量的Hadooop集群系统;
Facebook主要将Hadoop平台用于日志处理,推荐系统和数据仓库等方面;
百度主要使用Hadoop于日志的存储和统计、网页数据的分析和挖掘、商业分析、在线数据反馈、网页聚类等。
4.试述Hadoop的项目结构以及每个部分的具体功能。
答:
Pig |
Chukwa |
Hive |
HBase |
||
MapReduce |
HDFS |
Zookeeper |
|||
Common |
Avro |
Commeon是为Hadoop其他子项目提供支持的常用工具,主要包括文件系统、RPC和串行化库
Avro是为Hadoop的子项目,用于数据序列化的系统,提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的功能和简单的动态语言集成功能。
HDFS是Hadoop项目的两个核心之一,它是针对谷歌文件系统的开源实现。
HBase是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库,一般采用HDFS作为其底层数据存储。
MapReduce是针对谷歌MapReduce的开源实现,用于大规模数据集的并行运算。
Zoookepper是针对谷歌Chubby的一个开源实现,是高效和可靠的协同工作系统,提供分布式锁之类的基本服务,用于构建分布式应用,减轻分布式应用程序所承担的协调任务。
Hive是一个基于Hadoop的数据仓库工具,可以用于对Hadoop文件中的数据集进行数据整理、特殊查询和分布存储。
Pig是一种数据流语言和运行环境,适合于使用Hadoop和MapReducce平台上查询大型半结构化数据集。
Sqoop可以改进数据的互操作性,主要用来在H大哦哦哦配合关系数据库之间交换数据。
Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统,可以将各种类型的数据收集成适合Hadoop处理的文件,并保存在HDFS中供Hadoop进行各种 MapReduce操作。
第三章
1.试述分布式文件系统设计的需求。
设计需求 |
含义 |
HDFS的实现情况 |
透明性 |
具备访问透明性、位置透明性、性能、和伸缩透明性 |
只能提供一定程度的访问透明性,完全支持位置透明性、性能和伸缩透明性 |
并发控制 |
客户端对于文件的读写不应该影响其他客户端对同一个文件的读写 |
机制非常简单,任何时候都只允许有一个程序写入某个文件 |
文件复制 |
一个文件可以拥有不同位置的多个副本 |
HDFS采用了多副本机制 |
硬件和操作系统的异构性 |
可以在不同的操作系统和计算机上实现同样的客户端和服务端程序 |
采用Java语言开发,具有很好的跨平台能力 |
可伸缩性 |
支持节点的动态加入或退出 |
建立在大规模廉价机器上的分布式文件系统集群,具有很好的伸缩性 |
容错 |
保证文件服务在客户端或者服务端出现问题的时候能正常使用 |
具有多副本机制和故障自动检测、恢复机制 |
安全 |
保证系统的安全性 |
安全性较弱 |
2.分布式文件系统是如何实现较高水平扩展的?
分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(Slave Node)或者也被称为“数据节点”(DataNode)
3.试述HDFS中的块和普通文件系统中的块的区别。
答:在传统的文件系统中,为了提高磁盘读写效率,一般以数据块为单位,恶如不是以字节为单位。
HDFS中的块,默认一个块大小为64MB,而HDFS中的文件会被拆分成多个块,每个块作为独立的单元进行存储。HDFS在块的大小的设计上明显要大于普通文件系统。
4.试述HDFS中的名称节点和数据节点的具体功能。
答:名称节点负责管理分布式文件系统系统的命名空间,记录分布式文件系统中的每个文件中各个块所在的数据节点的位置信息;
数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并向名称节点定期发送自己所存储的块的列表。
hadoop fs -ls
hadoop fs -cat
hadoop fs -mkdir
hadoop fs -get [-ignorecrc] [-crc] 复制指定的文件到本地文件系统指定的文件或文件夹。-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。
hadoop fs -put 从本地文件系统中复制指定的单个或多个源文件到指定的目标文件系统中。也支持从标准输入(stdin)中读取输入写入目标文件系统。
hadoop fs -rmr
第四章
1.试述在Hadoop体系架构中HBase与其他组成部分的相互关系。
答: HBase利用Hadoop MapReduce来处理HBase中的海量数据,实现高性能计算;利用Zookeeper作为协同服务,实现稳定服务和失败恢复;使用HDFS作为高可靠的底层存储,利用廉价集群提供海量数据存储能力; Sqoop为HBase的底层数据导入功能,Pig和Hive为HBase提供了高层语言支持,HBase是BigTable的开源实现。
2.请阐述HBase和BigTable的底层技术的对应关系
答:
项目 |
BigTable |
HBase |
文件存储系统 |
GFS |
HDFS |
海量数据处理 |
MapReduce |
Hadoop MapReduce |
协同服务管理 |
Chubby |
Zookeeper |
3.请阐述HBase和传统关系数据库的区别
答:
区别 |
传统关系数据库 |
HBase |
数据类型 |
关系模型 |
数据模型 |
数据操作 |
插入、删除、更新、查询、多表连接 |
插入、查询、删除、清空,无法实现表与表之间关联 |
存储模式 |
基于行模式存储,元组或行会被连续地存储在磁盘也中 |
基于列存储,每个列族都由几个文件保存,不同列族的文件是分离的 |
数据索引 |
针对不同列构建复杂的多个索引 |
只有一个行键索引 |
数据维护 |
用最新的当前值去替换记录中原来的旧值 |
更新操作不会删除数据旧的版本,而是生成一个新的版本 |
可伸缩性 |
很难实现横向扩展,纵向扩展的空间也比较有限 |
轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩 |
4.HBase有哪些类型的访问接口?
答:HBase提供了Native Java API , HBase Shell , Thrift Gateway , REST GateWay , Pig , Hive 等访问接口。
5.请以实例说明HBase数据模型。
|
Info |
||
Name |
Major |
||
201505001 |
Luo Min |
Math |
Luo@qq.com |