内容:
- 大数据相关知识,和目前主流的解决方案
- MapReduce服务
- 如何使用
文章整理自:https://edu.huaweicloud.com/courses
大数据的开源解决方案:Hadoop
- HDFS
- HDFS
是基于Google发布的GFS论文进行设计开发,运行在通用硬件上的分布式文件系统。
即,将普通配置的机器结合起来形成一个完整的文件系统
- HDFS的特点:
(1)高容错性:认为硬件总是不可靠的,所以每份数据都有备份文件。
一般每份数据会有3份,分别存储在不同机器上,如果某个机器坏掉了,HDFS会将该机器上的数据自动备份3份并存储到其他机器上,保证始终有3份数据存在,来保证系统的可靠性
(2)高吞吐量:为大量数据访问的应用提供高吞吐量支持
HDFS可以将命令下发到它所管理的机器上进行数据的读写,来提高数据的吞吐量
(3)大文件存储:支持存储TB-PB级别的数据
理论上可以通过扩容机器上的硬盘容量或者增加机器数量来达到无限的存储空间
- HDFS常用的三个概念:
(1)NameNode:NameNode用于存储、生成文件系统的元数据信息。包括文件的物理地址,大小,备份数据等
(2)DataNode:DataNode用于存储实际的数据,将自己管理的数据信息上报给NameNode。
(3)Client:支持外面的应用程序访问HDFS,从NameNode,DataNode获取数据返回给业务
- MapReduce