hive笔记
文章平均质量分 59
任乌拉
公众号:任乌拉,欢迎同学关注~
展开
-
jdbc 连接hive所需要的jar(maven项目)
看到很多都是自己下包,但是版本什么的都是问题。。。maven项目很好的解决这个问题 junit junit 3.8.1 test org.apache.hive hive-jdbc 1.0.0 org.apac原创 2016-08-19 10:52:38 · 8653 阅读 · 0 评论 -
hive 参数调优
Map Reduce数量相关数据分片大小 (分片的数量决定map的数量) 计算公式: splitSize = Math.max(minSize, Math.min(maxSize, blockSize))set mapreduce.input.fileinputformat.split.maxsize=750000000;单个reduce处理的数据量 (影响reduce的数量) 计算公式: M转载 2017-04-23 13:49:43 · 13341 阅读 · 1 评论 -
hive 排序函数
row_number() 是没有重复值的排序(即使两天记录相等也是不重复的),可以利用它来实现分页 dense_rank() 是连续排序,两个第二名仍然跟着第三名 rank() 是跳跃拍学,两个第二名下来就是第四名使用方法 fun() over( partition by field,field… order by flag.. asc/desc)按照分区排序,即 field…一样原创 2017-04-26 01:46:39 · 2885 阅读 · 0 评论 -
hive 数据优化
影响Mapper的数量 1)文件数量 2)文件大小,根据下面参数进行切割 set mapred.max.split.size=128000000影响Reducer数量 mapred.reduce.tasks(强制指定reduce的任务数量) hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=原创 2018-01-07 23:56:49 · 254 阅读 · 0 评论