大数据理论知识

最新推荐文章于 2024-07-26 14:20:58 发布

起个名字都这么男

最新推荐文章于 2024-07-26 14:20:58 发布

阅读量2.2k

点赞数

分类专栏：大数据相关文章标签：数据库大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43672652/article/details/111937506

版权

大数据理论知识Hadoop大数据的四大特征：海量数据、价值密度低、数据类型多样、数据更新快。hadoop生态圈：HDFS、 MapReduce、 HBASE、 HIVE、 ZOOKEEPER、 PIG、 SQOOP、 Flume、 MAHOUT、 YARNhadoop启动后6个进程：Namenode、 SecondaryNamenode、 DataNode、 ResourceManager、 NodeManager、 jps。Hadoop高可靠，高容错，运行在Linux上。DataNode负责存储

摘要由CSDN通过智能技术生成

大数据理论知识

Hadoop

大数据的四大特征：海量数据、价值密度低、数据类型多样、数据更新快。

hadoop生态圈：HDFS、 MapReduce、 HBASE、 HIVE、 ZOOKEEPER、 PIG、 SQOOP、 Flume、 MAHOUT、 YARN

hadoop启动后6个进程：Namenode、 SecondaryNamenode、 DataNode、 ResourceManager、 NodeManager、 jps。

Hadoop高可靠，高容错，运行在Linux上。DataNode负责存储被拆分的数据块。Hadoop是由 Doug Cutting创建的。

Hadoop在大数据领域具有的功能是：离线分析，实时查询，BI分析。

Secondary namenode：SecondaryNameNode有两个作用，一是镜像备份，二是日志与镜像的定期合并缩短Namenode的启动时间。

Hadoop在企业的应用架构中可以放在访问层，数据源层，大数据层。

Hadoop访问层的功能是：数据分析，数据实时查询，数据挖掘。

Hadoop可以作为开发工具，开源软件，商业化工具。

Hadoop集群的性能主要受到以下因素影响：CPU性能，内存，网络，存储容量。

Hadoop的集群节点有哪些：DataNode，JobTracker，Taskracker，SecondaryNameNode。

Hadoop1.0的不足之处是：抽象层次低，需要人工编码。单一节点存在单点失效问题，单一命名空间，无法实现资源隔离，资源管理效率低。不支持水平扩展，整体性能受限于单个名称节点的吞吐量。HDFS HA是热备份，提供高可用，但是无法解决可扩展性，系统性能低和隔离性。

哪些属于Hadoop1.0的核心组件的不足之处？

实时性差（适合批处理，不支持实时交互式）
资源浪费（Map和Reduce分两阶段执行）
执行迭代操作效率低
难以看到程序整体逻辑

Hadoop1.0存在的问题：单点故障问题，不可以水平扩展，单个名称节点难以提供不同的程序之间的隔离性。系统整体性能受限于单个名称节点的吞吐量。

HDFS Federation容易出现内存溢出，分配资源只考虑MapReduce任务数，不考虑CPU，内存等资源。但是相对于HDFS1.0的优势体现在性能更高效，良好的隔离性，HDFS集群的扩展性。

Hadoop生态系统中Spark的功能是：基于内存的分布式并行编程框架，具有较高的实时性，并且较好的支持迭代计算。

在Hadoop生态系统中，Kafka主要解决各个组件和其他产品之间缺乏统一的高效的数据交换中介。

Q：Hadoop的优化和发展主要体现在哪几个方面？

A：Hadoop核心组件MapReduce的设计改进和HDFS的改进还有一点事生态系统中其他组件的不断丰富。

Q：Hadoop2.0做了哪些改进？

A：设计了HDFS HA，提供了名称节点热备份机制，设计了HDFS Federation，管理多个命名空间，设计了新的资源管理框架YARN。

YARN体系结构主要包括ResourceManager,NodeManager,ApplicationMaster,DataManager。

Q：在YARN中ApplicationMaster主要功能包括哪些？

1、ApplicationMaster与ResourceManager协商获取资源，ResourceManager会以容器的形式为ApplicationMaster分配资源。

2、ApplicationMaster会定时向ResourceManager发送心跳消息，报告资源的使用情况和应用的进度信息。

3、把获得的资源进一步分配给内部的各个任务（Map任务或Reduce任务），实现资源的“二次分配”。

ResourceManager的功能包括：处理客户端请求，监控NodeManager，资源分配与调度。

ApplicationMaster的功能是处理来自ResourceManager的命令。

Q: 如果我们现有一个安装2.6.5版本的hadoop集群，在不修改默认配置的情况下存储200个每个200M的文本文件，请问最终会在集群中产生多少个数据块（包括副本）？

A: 在默认情况下，HDFS集群默认存储文件3份，并且大文件会按照128M的数据块大小进行切割分散存储。所以题目中每个文件分为两块，总数据块有（200 * 2）= 400个。再加上会存储三份，所以 400 * 3 = 1200。

HDFS

Q：什么是分布式文件系统？

A：将多个文件存储到多个计算机节点上，成千上万个计算机节点构成的计算机集群。

Q：计算机集群中的节点有？

A：

最低0.47元/天解锁文章

起个名字都这么男

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
大数据理论知识

大数据理论知识Hadoop大数据的四大特征：海量数据、价值密度低、数据类型多样、数据更新快。hadoop生态圈：HDFS、 MapReduce、 HBASE、 HIVE、 ZOOKEEPER、 PIG、 SQOOP、 Flume、 MAHOUT、 YARNhadoop启动后6个进程：Namenode、 SecondaryNamenode、 DataNode、 ResourceManager、 NodeManager、 jps。Hadoop高可靠，高容错，运行在Linux上。DataNode负责存储
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。