hadoop
hdfs
分布式文件系统
hadoop基础
利用磁盘
mapreduce
运行在hadoop上的计算模型,如分布式计算hdfs上的文件数据
hbase
依托于HDFS存在的NoSql数据库(内存)
key-value
基于列的而不是基于行的模式
hive
解析sql,底层生成mr计算获取结果
元数据存储在关系型数据库中(如:mysql)
数据(内容)存储在hdfs
hive查询hbase的数据需要做表关联(映射)
impala
通常和Hive共用同一个metadata 数据库, 所以Impala 能够读取到Hive的元数据信息. 如果Impala需要访问Hive表, 需要将Hive metadata 刷新到impala中.
impala原先不存在,Hive中Create/Drop表后,或者HDFS rebalance,则需要在impala中执行命令:
1 INVALIDATE METADATA table_name;-- 告诉impala 指定的 table 元数据已经过期
2 describe table_name;-- 触发impala去更新元数据
impala原先存在,Hive修改元素据,使用 refresh 命令对元数据进行增量更新
1 REFRESH table_name; --增量刷新全表
2 refresh [table_name] [PARTITION (key_col1=val1 [, key_col2=val2...])]]; --仅仅刷新指定分区
spark