一、填空题
1、大数据的4V特征包含 大量 、 高速 、 多样 、 价值 。
2、Hadoop三大组件包含 HDFS 、 YARN 、MapReduce。
3、Hadoop2.x版本中的HDFS是由 NameNode 、 DataNode 、 SecondaryNameNode 组成。
4、Hadoop发行版本分为 开源社区版 、 商业版 。
5、目前Apache Hadoop发布的版本主要有 Hadoop1.x 、 Hadoop2.x 、 Hadoop3.x 。
二、判断题
1、Cloudera CDH是需要付费使用的。(×)
2、JobTracker是HDFS重要角色。 (×)
3、在Hadoop集群中,NameNode负责管理所有DataNode。(√)
4、在Hadoop1.x版本中,MapReduce程序是运行在Yarn集群之上。(×)
5、Hadoop是由Java语言开发的。(√)
三、选择题
1、以下选项中,哪个程序负责HDFS数据存储。 ( B )
A、NameNode B、DataNode C、Secondary NameNode D、ResourceManager
2、下列哪项通常是集群的最主要的性能瓶颈? ( C )
A、CPU B、 网络 C、磁盘 D、内存
3、下面哪项是Hadoop的作者?( B )
A、Martin Fowler B、Doug cutting C、Mark Elliot Zuckerberg D、Kent Beck
四、问答题
1、简述大数据研究的意义。
答:研究大数据,最重要的意义是预测。因为数据从根本上讲,是对过去和现在的归纳和总结,其本身不具备趋势和方向性的特征,但是我们可以应用大数据去了解事物发展的客观规律、了解人类行为,并且能够帮助我们改变过去的思维方式,建立新的数据思维模型,从而对未来进行预测和推测。知名互联网公司谷歌对其用户每天频繁搜索的词汇进行数据挖掘,从而进行相关的广告推广和商业研究。
2、简述Hadoop版本区别。
答:Hadoop发行版本分为开源社区版和商业版,社区版是指由Apache软件基金会维护的版本,是官方维护的版本体系。商业版Hadoop是指由第三方商业公司在社区版Hadoop基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本,例如比较著名的有Cloudera公司的CDH版本。