hadoop介绍

说起hadoop,有两层意思:hadoop生态系统和hadoop计算框架。一般之前者。

hadoop计算框架:hadoop common,hadoop distributed system(HDFS)[分布式文件管理系统],hadoop yarn(yet another resource negotiator)[资源管理系统],hadoop mapreduce[计算框架]。

hadoop生态系统:hadoop,hbase,hive,pig,sqoop,flume等。

当然,也不是说分布式文件系统只有HDFS,比如google公司的GFS。同样,计算框架还有storm等。

hbase是一个针对nosql的非关系数据库。

hive是一个基于hadoop的数据管理仓库,可以将结构化的资源文件映射为一张数据库表,可以通过简单的sql语句对文件进行查询(只能 查询)。最后将sql语句转换为mapreduce任务运行。简化版 的mapreduce操作。

pig是一种操作hadoop的轻量级脚本语言。实现的功能和hive差不多。是有雅虎公司提出的,但是已经不再对其提供维护了。

sqoop是一种开源的工具。可以将HDFS中的数据转移到关系型数据库中,也可以将关系型数据库中的数据转移到HDFS中。

flume是cloudera提供的强大的海量日志采集,集合和传输系统。可以处理任何形式的日志。

目前使用的hadoop一般2.0版本。目前的发布版有 apache hadoop和CDH(cloudera distributed hadoop)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值