hive
文章平均质量分 94
文艺攻城狮
天道酬勤
展开
-
hive 调优总结
hive调优是比较大的专题,需要结合实际的业务,数据的类型,分布,质量状况等来实际的考虑如何进行系统性的优化,hive底层是mapreduce,所以hadoop调优也是hive调优的一个基础,hvie调优可以分为几个模块进行考虑,数据的压缩与存储,sql的优化,hive参数的优化,解决数据的倾斜等。一,数据的压缩与存储格式对分析的数据选择合适的存储格式与压缩方式能提高hive的分析效率:...原创 2018-09-24 21:38:26 · 28388 阅读 · 9 评论 -
hive hql语句高级用法
一,order by ,sort by,distribute by 的用法1)order by 对全局数据的一个排序,仅仅只有一个reduce工作,最好不用。2)sort by 对每一个reduce 内部数据进行排序,全局结果集来说不是排序。set mapreduce.job.reuces = 3 ;会生成3个文件,每个文件内都是排好序的。3)distribute by 分...原创 2018-10-15 22:06:23 · 3437 阅读 · 0 评论