Hadoop概述
· hadoop名字,玩具命名
· 包含的模块框架
· common公用
· hdfs分布式文件系统
· yarn作业的调度和集群资源的管理
· MapReduce基于yarn的并行的处理数据的框架
· 介绍
· 开源的
· 分布式存储+分布式计算平台
· hadoop能做什么
· 搭建大型数据仓库、PB级数据的存储、处理、分析、统计等业务
· 应用方向
· 搜索引擎
· 日志分析
· 商业智能
· 数据挖掘
Hadoop核心组件之HDFS
· 源于google的GFS论文,发表于2003.10
· HDFS是GFS克隆版
· HDFS特点:扩展性,容错性,海量数据存储
· 将文件切分成指定大小的数据块(128mb)并以多副本的方式存储在多个机器上
· 数据切分,多副本,容错等操作对于用户来说是