一 . Hadoop是什么?
【百度百科】一个分布式系统基础架构,由Apache基金会所开发,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序,Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量数据提供了计算。
二 . hadoop能干什么
hadoop擅长日志分析,facebook就用hive来进行日志分析,2009年是facebook就又非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中的自定义筛选也使用的Hive;利用pig还可以做高级的数据处理。
三 . hodoop的核心
- HDFS 分布式文件系统 为海量的数据提供了存储
- YARN 资源管理调度系统
- Mapreduce 分布式运算框架 为海量数据提供了计算。
四 . HDFS的架构
主从结构
- 主节点:namenode
- 从节点:有很多个datanode namenode负责:
- 接收用户操作请求
- 维护文件系统的目录结构 管理文件与block之间的关系,block与datanode之间的关系 dat