华为的大数据平台—MapReduce服务

最新推荐文章于 2024-02-27 11:08:04 发布

牛奶没法用

最新推荐文章于 2024-02-27 11:08:04 发布

阅读量3.2k

点赞数 3

分类专栏：大数据

本文链接：https://blog.csdn.net/weixin_42969619/article/details/101150572

版权

内容：

大数据相关知识，和目前主流的解决方案
MapReduce服务
如何使用

文章整理自：https://edu.huaweicloud.com/courses

大数据的开源解决方案：Hadoop

在这里插入图片描述

HDFS

HDFS

是基于Google发布的GFS论文进行设计开发，运行在通用硬件上的分布式文件系统。

即，将普通配置的机器结合起来形成一个完整的文件系统

HDFS的特点：

（1）高容错性：认为硬件总是不可靠的，所以每份数据都有备份文件。

 一般每份数据会有3份，分别存储在不同机器上，如果某个机器坏掉了，HDFS会将该机器上的数据自动备份3份并存储到其他机器上，保证始终有3份数据存在，来保证系统的可靠性

（2）高吞吐量：为大量数据访问的应用提供高吞吐量支持

 HDFS可以将命令下发到它所管理的机器上进行数据的读写，来提高数据的吞吐量

（3）大文件存储：支持存储TB-PB级别的数据

 理论上可以通过扩容机器上的硬盘容量或者增加机器数量来达到无限的存储空间

HDFS常用的三个概念：

（1）NameNode：NameNode用于存储、生成文件系统的元数据信息。包括文件的物理地址，大小，备份数据等
（2）DataNode：DataNode用于存储实际的数据，将自己管理的数据信息上报给NameNode。
（3）Client：支持外面的应用程序访问HDFS，从NameNode，DataNode获取数据返回给业务

MapReduce

最低0.47元/天解锁文章