(2)Hadoop

Hive:可以写SQL语句,充当数据仓库作用,完成批量数据处理。

Pig:针对流式数据,轻量级脚本语言。

Tez:将整个MapReduce作业构建成一个有向无环图,实现作业的优化。

ZooKeeper:分布式协调一致性。分布式锁一致性,集群管理等等。

FLume:针对流式数据的收集工作,日志收集工具。

Spark类似于MapReduce,但是Spark是基于内存计算的。

Sqoop:将传统的关系型数据库的数据导入/导出到Hadoop(HDFS,Hbase,Hive中)。

HBase: 非关系型分布式数据库,架构在HDFS之上。用来存储非结构化和半结构化的松散数据。HDFS顺序读写,Hbase支持随机读写以及实时应用。

MapReduce:Data Processing

Yarn:集群的资源管理,cluster resource management

SecondaryNameNode在小型集群中可以和NameNode共用一台机器,较大的群集可以采用与NameNode相同的硬件。(不同的机器)

对于一个小的集群,名称节点(NameNode)和JobTracker运行在单个节点上,通常是可以接受的。但是,随着集群和存储在HDFS中的文件数量的增加,名称节点需要更多的主存,这时,名称节点和JobTracker就需要运行在不同的节点上。

 

安装:

1.一般选择下载最新的稳定版本,即下载 “stable” 下的 hadoop-2.x.y.tar.gz 这个格式的文件,这是编译好的,另一个包含 src 的则是 Hadoop 源代码,需要进行编译才可使用。

2.我们使用的是 hadoop 用户,并且已创建相应的用户目录 /user/hadoop (与系统用户名相对应),因此在命令中就可以使用相对路径如 input,其对应的绝对路径就是 /user/hadoop/input。标注:这里两个hadoop对应的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值