hive
婲落ヽ紅顏誶
这个作者很懒,什么都没留下…
展开
-
hive存储元数据的三种模式
内嵌模式:将元数据保存在本地内嵌的derby数据库中,内嵌的derby数据库每次只能访问一个数据文件,也就意味着它不支持多会话连接。 本地模式:将元数据保存在本地独立的数据库中(一般是mysql),这可以支持多会话连接。 远程模式:把元数据保存在远程独立的mysql数据库中,避免每个客户端都去安装mysql数据库。 ...原创 2020-09-22 10:02:34 · 354 阅读 · 0 评论 -
hive使用
1.加载本地csv文件到hive表 建表语句 create table student(s_id string,s_name string,s_birth string,s_sex string) row format delimited fields terminated by '\t'; create table course(c_id string,c_name string,t_id string) row format delimited fields terminated by '\t';.原创 2020-09-08 10:43:18 · 149 阅读 · 0 评论 -
大数据Hive中数据倾斜问题
介绍 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据...原创 2019-07-24 20:36:50 · 328 阅读 · 0 评论