1.为什么要学习hive?
1.简单易用
2.扩展性好 :
1.sql 功能角度:udf
2.数据存储 和 计算角度 :hadoop进行扩展
注意:hive仅仅就是个客户端而已
3.Metastore 【Hive的元数据管理】
sparksql presto impala 只要能够访问hive Metastore 就可以访问 Hive里面表的数据
【可以共享Metastore】
2.hive 的架构 rdbms
1.元数据:描述数据的数据 schema
表的名字、字段的名字、字段的类型、谁创建的、数据存储在哪 。。。
3.常见问题
hive vs RDBMS mysql
1.共同点:sql
2.延时性:hive适用于 离线计算 慢 千万不要拿hive和mysql的执行性能对比
3.事务:都支持
4. update delete hive里面 不用 性能太差
5.分布式 都支持
6.成本:廉价 vs 成本高
7.数据体量: 量大 vs TB pb数据