在项目中使用到了hive,本来觉得挺简单的无非就是CRUD,慢慢发现不是那么回事。特开文章来记录下来以备后查。
在使用传统的数据库时因为封装的很好,屏蔽了许多底层细节,所以在使用时只需关注应用的开发无需关注底层的实现。在使用hive时就没那么简单了,需要考虑方方面面的内容。
这里先记录下hive在数据存储时的存储格式,一共有三种格式:TEXTFILE,SEQUENCEFILE,RCFILE
hive默认的存储格式为textfile既文本格式,后两种格式为二进制格式,行列混合格式。
hive指定文件的存储格式有两种方式:1.在创建表时的SQL语句指定。2.在hive的hive-site.xml文件中配置成全局变量,如果在创建表时不显式指定文件存储格式就会使用指定的文件格式。
下面举例来说明
1.创建表时SQL语句指定
CREATE TABLE TEST (name string,age int) STORED AS RCFILE;
2.