2024年大数据最新猿创征文｜Hadoop大数据技术_大数据技术文章英文(1)

最新推荐文章于 2024-11-06 11:12:27 发布

2401_84141419

最新推荐文章于 2024-11-06 11:12:27 发布

阅读量933

点赞数 16

分类专栏：程序员文章标签：大数据 hadoop 分布式

本文链接：https://blog.csdn.net/2401_84141419/article/details/138402852

版权

程序员专栏收录该内容

193 篇文章 2 订阅

订阅专栏

本文介绍了大数据的定义及其基本特征，强调了互联网时代数据增长的挑战。讲述了Hadoop分布式计算框架，特别是HDFS（Hadoop分布式文件系统）在大数据处理中的关键角色，包括其优点、缺点以及Hadoop生态圈的组件和应用架构。还提到了Hadoop生态系统的组件如NameNode、DataNode等，以及提供从入门到进阶的学习资源。

摘要由CSDN通过智能技术生成

大数据（Big Data）是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据并不等同于海量数据，基本特征如下：

Volume（数据体量大）：存储量大、增量大
Velocity（处理速度快）：高速数据、高速处理
Variety（数据类型多）：来源多、类型多
Value（价值密度低）
Veracity（数据准确性）

当今，互联网、云计算、移动与物联网发展迅猛，移动设备、RFID、无线传感器每分每秒都在产生数据，数以亿计用户的互联网服务时时刻刻在产生巨量的交互。而传统方案集中式存储与计算，同时需要考虑设备性能、成本等问题，难以满足要求；因此架构基于大规模分布式计算（MPP）的 GFS/HDFS 分布式文件系统、各种 NoSQL分布式等新方案应运而生。另外，在大数据处理上， Hadoop 对于大部分的企业来说，基于 Hadoop 已经能够满足绝大部分的数据需求，因此才会成为现在的主流选择。

Hadoop生态圈

Hadoop生态圈：由 Apache基金会所开发的分布式系统基础框架，用于分布式大数据处理的开源框架，允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。

Hadoop生态圈：

在这里插入图片描述

Hadoop生态圈组件说明：

在这里插入图片描述

Hadoop典型应用架构：

在这里插入图片描述

Hadoop模式

单机模式：Hadoop默认模式，在单机上按默认配置以非分布式模式运行的一个独立Java进程，没有分布式文件系统HDFS，直接在本地操作的文件系统读写，一般仅用于本地MapReduce程序的调试。
伪分布式模式：单机上模拟一个分布式的环境，具备Hadoop的主要功能，常用于调试程序。
完全分布式模式：也叫集群模式，Hadoop的守护进程运行在由多台主机搭建的集群上，是真正的分布式环境，是用于实际的生产环境。

HDFS

在这里插入图片描述

概述

HDFS（Hadoop Distributed File System，Hadoop分布式文件系统），是 Hadoop 项目的核心子项目，是分布式计算中数据存储管理的基础。支持海量数据的存储，成百上千的计算机组成存储集群，HDFS 可以运行在低成本的硬件之上，具有的高容错、高可靠性、高可扩展性、高吞吐率等特征，非常适合大规模数据集上的应用。