大数据必知:Hadoop的三大组件和特点

徐凤年不是真无敌

已于 2022-02-15 13:39:06 修改

阅读量1.1w

点赞数 1

文章标签： hadoop 大数据 big data 数据库分布式

于 2022-02-14 16:06:30 首次发布

本文链接：https://blog.csdn.net/ariesly0411/article/details/122926168

版权

Hadoop 是 Apache 基金会的开源分布式计算平台，以 HDFS 和 MapReduce 为核心，提供高容错性、高扩展性的大数据处理能力。Hadoop 的特点包括高可靠性、高扩展性、高效性、高容错性和低成本。HDFS 是分布式文件系统，通过 NameNode、Secondary NameNode 和 DataNode 实现数据存储和备份，MapReduce 提供分布式计算框架。YARN 是 Hadoop 的资源管理器，负责集群资源分配和管理。

摘要由CSDN通过智能技术生成

大数据特点：5V

IBM 提出大数据具有 5V 特点，分别为：Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)

Volume：巨大的数据量，采集、存储和计算的量都非常大。大数据的起始计量单位至少是 PB(1000TB)、EB(100万TB)或ZB(10亿TB)。

8 bit = 1 Byte 一字节
1024 B = 1 KB （KiloByte） 千字节
1024 KB = 1 MB （MegaByte） 兆字节
1024 MB = 1 GB （GigaByte） 吉字节
1024 GB = 1 TB （TeraByte） 太字节
1024 TB = 1 PB （PetaByte） 拍字节
1024 PB = 1 EB （ExaByte） 艾字节
1024 EB = 1 ZB （ZetaByte） 泽字节
1024 ZB = 1 YB （YottaByte） 尧字节
1024 YB = 1BB（Brontobyte）珀字节
1024 BB = 1 NB （NonaByte） 诺字节
1024 NB = 1 DB （DoggaByte）刀字节

Velocity：因为要保证数据的时效性，数据增长速度和处理速度必须要迅速。比如搜索引擎要求几分钟前的新闻都能够被用户查询到，个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

Variety：种类和来源多样化。包括结构化、半结构化和非结构化数据，具体表现为网络日志、音频、视频、图片、地理位置信息等，多类型的数据对数据的处理能力提出了更高的要求。

Value：数据价值密度相对较低。随着互联网以及物联网的广泛应用，信息感知无处不在，信息海量，但价值密度较低。那么如何结合业务逻辑并通过强大的机器算法来挖掘数据价值，是大数据时代最需要解决的问题。

Veracity：数据的准确性和可信赖度，即为数据的质量

Hadoop 简介

Hadoop 是 Apache 软件基金会旗下的一个开源分布式计算平台。以分布式文件系统 HDFS(Hadoop Distributed File System) 和 MapReduce(Google MapReduce 的开源实现) 为核心的 Hadoop，为用户提供了系统底层透明的分布式基础构架。

HDFS 的高容错性、高伸缩性、高性能等优点允许用户将 Hadoop 部署在廉价的硬件上，形成分布式系统，它负责数据的分布式存储和备份，文件写入后只能读取，不能修改；MapReduce 分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序