hadoop概述

最新推荐文章于 2021-11-11 20:58:08 发布

叮_叮_9527

最新推荐文章于 2021-11-11 20:58:08 发布

阅读量108

点赞数

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cwg844321258/article/details/115635233

版权

hadoop 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1、hadoop背景

google的三篇论文

GFS-HDFS、Mapreduce、bigtable-Hbase

2、什么是hadoop

是一种分析和处理大数据的软件平台，是Apache的一个用Java语言所实现的开源软件的加框，在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。

开源的
可靠的
可扩展:机器的增加或者减少不会影响设备正常运行
分布式计算

3、解决的问题

1) 海量数据的存储——HDFS

存海量数据的
动态的添加机器，不会影响正常的设备运行
备份(默认备份3份)
快速自动恢复(当数据文件损坏的时候)

2)海量数据的分析——MapReduce(离线分析)

海量：核心理念——分而治之

3）集群资源的管理和任务调度——yarn

资源管理(cpu和内存)
任务调度

4、特点

扩容能力
成本低
高效率
可靠性
完整性

5、应用场景

日志分析
推荐系统
GPS系统

6、hadoop生态图

7、hadoop的核心内容

HDFS分布式文件系统解决了：海量数据的存储——分布式架构设计

分布式特点：集群多台机器共同协作完成存储主从架构设计

1、NameNode —— 主节点(中心服务器)

文件的元数据：

文件的名称
文件的位置
副本数(备份)
拥有者、组、权限
存储块:按块存储大于256M分别将文件切成块，默认大小128M
各个块在那些datanode上

2、DataNode —— 文件的操作

DataNode负责文件的读写请求

3、读文件

client——namenode

client——datanode

4、写文件

client —— (申请)namenode (在namenode基础上告诉client在那台datanode上存数据)

client —— datanode

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop概述

1、hadoop背景google的三篇论文GFS-HDFS、Mapreduce、bigtable-Hbase2、什么是hadoop是一种分析和处理大数据的软件平台，是Apache的一个用Java语言所实现的开源软件的加框，在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。开源的可靠的可扩展:机器的增加或者减少不会影响设备正常运行分布式计算3、解决的问题1) 海量数据的存储——HDFS存海量数据的动态的添加机器，不会影响正常的设备运行备份(.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。