初识Hadoop

最新推荐文章于 2024-09-16 11:16:36 发布

ˉ 碎梦

最新推荐文章于 2024-09-16 11:16:36 发布

阅读量1.8k

点赞数 36

文章标签：大数据

本文链接：https://blog.csdn.net/m0_75144114/article/details/136531388

版权

一、大数据的特征

大数据的4v主要包含规模性（Volume）、多样性（Variety）、高速性（Velocity）、价值性（Value）

1、规模性（Volume）

大数据中的数据计量单位是PB（1千个T）、EB（1百万个T）或ZB（10亿个T）。

2、多样性（Variety）

多样性主要体现在数据来源多、数据类型多和数据之间关联性强这三个方面。

①数据来源多，互联网和物联网的发展，带来了诸如社交网站、传感器等多种来源的数据。而由于数据来源于不同的应用系统和不同的设备，决定了大数据形式的多样性。

②数据类型多，并且以非结构化数据为主。大数据中有70％-85％的数据是如图片、音频、视频、网络日志、链接信息等非结构化和半结构化的数据。

③数据之间关联性强，频繁交互，如游客在旅游途中上传的照片和日志，就与游客的位置、行程等信息有很强的关联性。

3、高速性（Velocity）

大数据对处理数据的响应速度有更严格的要求。实时分析而非批量分析，数据输入、处理与丢弃立刻见效，几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。

4、价值性（Value）

大数据背后潜藏的价值巨大。由于大数据中有价值的数据所占比例很小，而大数据真正的价值体现在从大量不相关的各种类型的数据中。挖掘出对未来趋势与模式预测分析有价值的数据，并通过机器学习方法、人工智能方法或数据挖掘方法深度分析，并运用于农业、金融、医疗等各个领域，以期创造更大的价值。

二、结构化数据与非结构化数据

结构化数据：

简单来说就是数据库。结合到典型场景中更容易理解，比如企业ERP、财务系统；医疗HIS数据库；教育一卡通；政府行政审批；其他核心数据库等。这些应用需要哪些存储方案呢？基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

非结构化数据：

相对于结构化数据(即行数据，存储在数据库里，可以用二维表结构来逻辑表达实现的数据)而言，不方便用数据库二维逻辑表来表现的数据即称为非结构化数据，包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。

非结构化数据库是指其字段长度不等，并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库，用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。

三、Hadoop生态圈

Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同，各种组件相继出现，丰富Hadoop生态圈，目前生态圈结构大致如图所示：

四、Hadoop HDFS架构

HDFS（Hadoop Distributed File System）是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开发的，可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集（Large Data Set）的应用处理带来了很多便利