hive
松子-招财猫
这个作者很懒,什么都没留下…
展开
-
数据仓库的分区与分桶
数据仓库的分区与分桶 分区解释:将数据仓库内存储数据量大的表,按表中列值进行切片,列值一样的数据划分到一起,列值分类有多少种就至少有这么多的分区目录。如:某电商公司订单表按天分区,按订单表的下单时间在同一天的数据划分到一个目录中。 分桶解释:将数据仓库内存储数据量大的表,按表中列值的hash值对想划分的桶数取模,值一样活着同样在某些范围内的数据划分到一起,划分桶数有多少就有多少分桶目录。如:某电商公司订单表按天分区下再按订单号分桶,按订单表的下单时间在同一天的数据划分到一个目录中,再将数据按订单号进行has原创 2020-05-20 14:27:35 · 2084 阅读 · 0 评论 -
hive中distribute by、sort by、cluster by的区别
hive中distribute by、sort by、cluster by的区别 1.distribute by + sort by 组合使用 实验表 hive> select * from test1; OK 19 1 FLUSH 18 1 CACHE 17 1 PROCEDURE 16 1 ANALYSE 15 1 HELP 14 1 VALUE 13 1 SERIAL 12 1 DEF...原创 2020-01-14 18:34:27 · 387 阅读 · 0 评论 -
hive SQL语句执行过程
hive SQL语句执行过程 背景了解: hive数仓数据存储于Hadoop大数据框架的HDFS文件系统中,以文件的方式存储,hive是建立在Hadoop之上的数仓工具,hive将文件数据映射成结构性数据-表。 了解hive SQL语句: hive SQL语句是在hive上执行的类SQL语句,可以通过hive将hive SQL语句转换成MapReduce程序操作数据,而不必开发专门的应用程序。 示...原创 2020-01-09 17:44:28 · 1513 阅读 · 0 评论
分享