说起hadoop,有两层意思:hadoop生态系统和hadoop计算框架。一般之前者。
hadoop计算框架:hadoop common,hadoop distributed system(HDFS)[分布式文件管理系统],hadoop yarn(yet another resource negotiator)[资源管理系统],hadoop mapreduce[计算框架]。
hadoop生态系统:hadoop,hbase,hive,pig,sqoop,flume等。
当然,也不是说分布式文件系统只有HDFS,比如google公司的GFS。同样,计算框架还有storm等。
hbase是一个针对nosql的非关系数据库。
hive是一个基于hadoop的数据管理仓库,可以将结构化的资源文件映射为一张数据库表,可以通过简单的sql语句对文件进行查询(只能 查询)。最后将sql语句转换为mapreduce任务运行。简化版 的mapreduce操作。
pig是一种操作hadoop的轻量级脚本语言。实现的功能和hive差不多。是有雅虎公司提出的,但是已经不再对其提供维护了。
sqoop是一种开源的工具。可以将HDFS中的数据转移到关系型数据库中,也可以将关系型数据库中的数据转移到HDFS中。
flume是cloudera提供的强大的海量日志采集,集合和传输系统。可以处理任何形式的日志。
目前使用的hadoop一般2.0版本。目前的发布版有 apache hadoop和CDH(cloudera distributed hadoop)