hdfs: 存文件的,分布式文件存储系统
map-reduce: 有map和reduce两个阶段,适用于分布式的并行计算。
yarn: 资源调度的,资源管理器,新的map-reduce版本
详细介绍:https://www.cnblogs.com/yjd_hycf_space/p/6735290.html
hbase: 就是一种数据库,面向列的非关系型数据库
hbase是一种面向列的非关系型数据库,hbase是基于hdfs上的,数据最终存在hdfs文件系统上
访问网址:(master:端口)192.168.80.139:50070
hbase的namespace:namespace 名称空间,在逻辑上对表进行分组
hbase shell:常用命令:https://www.cnblogs.com/ityouknow/p/7344001.html
zookeeper: hbase依赖zookeeper,zk提供分布式集群的协同服务(如时间同步)
详细介绍:
https://www.cnblogs.com/felixzh/p/5869212.html
http://www.open-open.com/lib/view/open1415453633887.html
hbase与zookeeper:
hbase依赖于zookeeper,zookeeper可以使用内置的也可以外配
可以使用hbase zkcli进入zookeeper命令行
zkCli.sh -server hadoop01:2181
hive: 是hbase的访问接口,类似hbase shell,hbase的访问接口有:
hive的产生 : 非java编程者对hdfs做mapreduce操作
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
spark: 类似hadoop,另一种mapreduce框架,
中间结果保存在内存中,所以快。适用于机器学习、数据挖掘等算法。