hadoop:
一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。包含HDFS,yarn,MapReduce。
广义的Hadoop指的是Hadoop生态系统,生态系统中的每一子系统只解决某一特定的问题域。
Hadoop是开源的,社区活跃度很高,涉及到分布式存储和计算的方方面面。
HDFS:
HDFS是1个master(NameNode)带N个(DataNode)的
一个文件会被拆分成多个block,blockSize==128M
NN:1)负责元数据的管理(文件名,副本系数,Block存放的DN)
2)负责客户端请求的响应
DN:1)负责存储用户的文件对应的数据块(Block)
2)定期向NN发送心跳包,汇报健康状况
建议NN和DN部署在不同的节点上
HDFS相关配置:
hadoop-env.sh :配置jdk
core-site.xml: <fs.defaultFS><hadoop.tmp.dir>
hdfs-site.xml:<dfs.replication>