Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。
搞清楚了HBase的读写过程,便于将来做优化。
读取数据的时候,先从MemCache中读取,MemCache存放的是刚刚写入的数据,如果MemCache中没有,就从BlockCahce中读,
BlockCache中包括一个个HFile,一个HFlie可以理解成一个Block,
Block里面存放着数据和索引,这样可以加快检索的速度,如果BlockCache中也没有的话,就从hdfs中读取。
MemCache和BlockCache都在内存中存在,他们有啥区别呢?
MemCache:方便最先插入的被查询
BlockCache:为了查询