Hadoop_基本概念、数据读写操作流程

本文介绍了Hadoop的基本概念,包括HDFS的分布式文件系统和MapReduce编程模型。阐述了HDFS的数据块、NameNode与DataNode的角色,以及Hadoop在大数据存储和处理中的优势与不足。详细解析了HDFS的数据读写流程,最后通过实战展示了HDFS的Shell命令和MapReduce编程模型。
摘要由CSDN通过智能技术生成

大数据是一个概念也是一门技术,是在以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。
大数据包括了以Hadoop和spark为代表的基础大数据框架;还包括实时数据处理,离线数据处理,数据分析,数据挖掘和用及其算法进行预测分析等技术。

目标

掌握Hadoop框架的基础原理及使用方式;
掌握基于Hadoop框架进行数据处理与分析的应用程序的开发;
从应用入手,在使用过程中深入了解其原理及运行机制。

Hadoop是什么
Hadoop是一个开源的大数据框架,是一个分布式计算的解决方案。
Hadoop = HDFS(分布式文件系统) + MapReduce(分布式计算)

HDFS(分布式文件系统):存储是大数据技术的基础
MapReduce编程模型:是大数据应用的解决方案

举个栗子:
如果想要从一个100T的文件中过滤出含有Hadoop字符串的行。普通方法不能搞定。

HDFS
普通的成百上千的机器
按照TB甚至PB为单位的大量的数据
简单便捷的文件获取

HDFS概念
数据块
是抽象块而非整个文件作为存储单元;
默认大小为64MB,一般设置为128M,备份×3;
对于特别大的文件(超出了一个磁盘的大小),那么便可以通过分块的方式存储到多个磁盘。简化了存储系统的设计。
为了保证安全,我们通常会进行备份,数据块非常适合数据的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值