大数据产品功能介绍

最新推荐文章于 2021-08-17 10:10:19 发布

Ebaugh

最新推荐文章于 2021-08-17 10:10:19 发布

阅读量2.1k

点赞数

分类专栏：大数据文章标签： hadoop 家族产品大数据产品

本文链接：https://blog.csdn.net/AntKengElephant/article/details/90746608

版权

摘要由CSDN通过智能技术生成

Hadoop实现了一个分布式文件系统，（Hadoop Distributed FileSystem）简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（highthroughput）来访问应用程序的数据，适合那些有着超大数据集（largedataset）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streamingaccess）文件系统中的数据。适用于结构化和非结构化数据的大数据分析解决方案，HDFS分布式文件系统是Hadoop的核心组件之一，保证了大数据的可靠存储，与MapReduce配合使用，可以对结构化和复杂大数据进行快速、可靠分析，从而为企业做出更好的决策，促进收入增长，改善服务，降低成本提供有力支撑！
（2）HDFS核心优势
. 支持超大文件
HDFS分布式文件系统具有很大的数据集，可以存储TB或PB级别的超大数据文件，能够提供比较高的数据传输带宽与数据访问吞吐量，相应的，HDFS开放了一些POSIX的必须接口，容许流式访问文件系统的数据。
. 高容错性能
HDFS面向的是成百上千的服务器集群，每台服务器上存储着文件系统的部分数据，在集群的环境中，硬件故障是常见的问题，这就意味着总是有一部分硬件因各种原因而无法工作，因此，错误检测和快速、自动的恢复是HDFS最核心的架构目标，因此，HDFS具有高度的容错性。
. 高数据吞吐量
HDFS采用的是“一次性写，多次读”这种简单的数据一致性模型，在HDFS中，一个文件一旦经过创建、写入、关闭后，一般就不需要修改了，这样简单的一致性模型，有利于提高吞吐量。
. 流式数据访问
HDFS的数据处理规模比较大，应用一次需要访问大量的数据，同时这些应用一般都是批量处理，而不是用户交互式处理，应用程序能以流的形式访问数据集。
（3）Yarn（分布式资源管理器）
YANR本质上是一个资源统一管理系统，是在第一代MapReduce基础上演变而来的，是hadoop2.x以后对hadoop1.x之前JobTracker和TaskTracker模型的优化，而产生出来的，将资源管理和作业控制分离，减小JobTracker压力，主要为了解决原始Hadoop扩展性差，不支持多计算框架而提出的。目的是将各种框架运行在YARN之上，可以实现框架的资源统一管理和分配，使他们共享一个集群，而不是“一个框架一个集群”，这可大大降低运维成本和硬件成本。
yarn优势
. 资源管理更加合理
使用Container对资源进行抽象，Container不同于MRv1中的slot，它是一个动态资源划分单位，是根据应用程序的需求

最低0.47元/天解锁文章

Ebaugh

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
大数据产品功能介绍

Hadoop实现了一个分布式文件系统，（Hadoop Distributed FileSystem）简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（highthroughput）来访问应用程序的数据，适合那些有着超大数据集（largedataset）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（stre...
复制链接

扫一扫