大数据理论知识

大数据理论知识Hadoop大数据的四大特征:海量数据、价值密度低、数据类型多样、数据更新快。hadoop生态圈:HDFS、 MapReduce、 HBASE、 HIVE、 ZOOKEEPER、 PIG、 SQOOP、 Flume、 MAHOUT、 YARNhadoop启动后6个进程:Namenode、 SecondaryNamenode、 DataNode、 ResourceManager、 NodeManager、 jps。Hadoop高可靠,高容错,运行在Linux上。DataNode负责存储
摘要由CSDN通过智能技术生成

大数据理论知识

Hadoop

大数据的四大特征:海量数据、价值密度低、数据类型多样、数据更新快。

hadoop生态圈:HDFS、 MapReduce、 HBASE、 HIVE、 ZOOKEEPER、 PIG、 SQOOP、 Flume、 MAHOUT、 YARN

hadoop启动后6个进程:Namenode、 SecondaryNamenode、 DataNode、 ResourceManager、 NodeManager、 jps。

Hadoop高可靠,高容错,运行在Linux上。DataNode负责存储被拆分的数据块。Hadoop是由 Doug Cutting创建的。

Hadoop在大数据领域具有的功能是:离线分析,实时查询,BI分析。

Secondary namenode:SecondaryNameNode有两个作用,一是镜像备份,二是日志与镜像的定期合并缩短Namenode的启动时间。

Hadoop在企业的应用架构中可以放在访问层,数据源层,大数据层。

Hadoop访问层的功能是:数据分析,数据实时查询,数据挖掘。

Hadoop可以作为开发工具,开源软件,商业化工具。

Hadoop集群的性能主要受到以下因素影响:CPU性能,内存,网络,存储容量。

Hadoop的集群节点有哪些:DataNode,JobTracker,Taskracker,SecondaryNameNode。

Hadoop1.0的不足之处是:抽象层次低,需要人工编码。单一节点存在单点失效问题,单一命名空间,无法实现资源隔离,资源管理效率低。不支持水平扩展,整体性能受限于单个名称节点的吞吐量。HDFS HA是热备份,提供高可用,但是无法解决可扩展性,系统性能低和隔离性。

哪些属于Hadoop1.0的核心组件的不足之处?

  • 实时性差(适合批处理,不支持实时交互式)
  • 资源浪费(Map和Reduce分两阶段执行)
  • 执行迭代操作效率低
  • 难以看到程序整体逻辑

Hadoop1.0存在的问题:单点故障问题,不可以水平扩展,单个名称节点难以提供不同的程序之间的隔离性。系统整体性能受限于单个名称节点的吞吐量。

HDFS Federation容易出现内存溢出,分配资源只考虑MapReduce任务数,不考虑CPU,内存等资源。但是相对于HDFS1.0的优势体现在性能更高效,良好的隔离性,HDFS集群的扩展性。

Hadoop生态系统中Spark的功能是:基于内存的分布式并行编程框架,具有较高的实时性,并且较好的支持迭代计算。

在Hadoop生态系统中,Kafka主要解决各个组件和其他产品之间缺乏统一的高效的数据交换中介。

Q:Hadoop的优化和发展主要体现在哪几个方面?

A:Hadoop核心组件MapReduce的设计改进和HDFS的改进还有一点事生态系统中其他组件的不断丰富。

Q:Hadoop2.0做了哪些改进?

A:设计了HDFS HA,提供了名称节点热备份机制,设计了HDFS Federation,管理多个命名空间,设计了新的资源管理框架YARN。

YARN体系结构主要包括ResourceManager,NodeManager,ApplicationMaster,DataManager。

Q:在YARN中ApplicationMaster主要功能包括哪些?

1、ApplicationMaster与ResourceManager协商获取资源,ResourceManager会以容器的形式为ApplicationMaster分配资源。

2、ApplicationMaster会定时向ResourceManager发送心跳消息,报告资源的使用情况和应用的进度信息。

3、把获得的资源进一步分配给内部的各个任务(Map任务或Reduce任务),实现资源的“二次分配”。

ResourceManager的功能包括:处理客户端请求,监控NodeManager,资源分配与调度。

ApplicationMaster的功能是处理来自ResourceManager的命令。

Q: 如果我们现有一个安装2.6.5版本的hadoop集群,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)?

A: 在默认情况下,HDFS集群默认存储文件3份,并且大文件会按照128M的数据块大小进行切割分散存储。所以题目中每个文件分为两块,总数据块有(200 * 2)= 400个。再加上会存储三份,所以 400 * 3 = 1200。

HDFS

Q:什么是分布式文件系统?

A:将多个文件存储到多个计算机节点上,成千上万个计算机节点构成的计算机集群。

Q:计算机集群中的节点有?

A:

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值