想起一直想要了解的Hadoop,找点资料来学习下~
基础概念
- 是一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。
- (我个人理解,就是利用Hadoop在不同机器上,存储和处理数据,因为数据量比较大,在多台机器平行处理数据,最后形成结果数据集。高吞吐量,不到一个高端服务器的价格实现了)
- 从单个服务器扩展到数千个机器,每个都提供本地计算和存储
- 共享存储(分布式存储)
- 抽象的分析接口(分布式分析)
适用场景
- 商用硬件:运行与商用服务器上,具有高容错、高可靠性、高扩展性等特点
- 流式数据:写一次,读多次的场景
- 大规模数据
不适用场景
- 低延时的数据访问
- 大量的小文件
- 频繁修改文件
Hadoop架构
- HDFS: 分布式文件存储
- 本地文件系统的顶端,对文件进行监管处理
- YARN: 分布式资源管理(调度和集群资源管理的框架)
- MapReduce:分布式计算
- Others:利用YARN的资源管理功能实现其他的数据处理方式
内部各个节点基本是采用Master-Woker架构
盗张图( ̄. ̄)
经过大概的了解,在几台机器上安装Hadoop,进行各种环境变量配置,安装成功,进行初始化,然后启动HDFS、YARN(只能在主节点启动),就可以使用Hadoop了。查看大概的命令,与Linux命令大同小异,具体使用时候,再看具体命令。几十分钟的了解,嗯,Hadoop大概是这个东东,分布式数据处理。
还有一个主从的概念
- 主节点、从节点
- HDFS:
- 主节点:名称节点NameNode
- 从节点:数据节点DataNode
- YARN:
- 主节点:ResourceManager
- 从节点:NodeManager
嘻,大概了解啦,之后再具体学习,写后续~